🎙️ Modèles Whisper
| Modèle | VRAM | Vitesse | Précision | Recommandé |
|---|---|---|---|---|
| tiny | ~1 Go | ⚡⚡⚡⚡ | ★★ | Non |
| base | ~1 Go | ⚡⚡⚡ | ★★★ | Non |
| small | ~2 Go | ⚡⚡ | ★★★★ | Démo rapide |
| medium | ~5 Go | ⚡ | ★★★★ | Bon compromis |
| large-v3 | ~10 Go | ★★★★★ | ✅ RTX 5090 |
💾 Dataset ZFS
| Dataset | Contenu |
|---|---|
| whisper | Modèles Whisper (checkpoints) |
🐍 Exemple Python
python
import whisper
# Charger le modèle (téléchargé si absent)
model = whisper.load_model('large-v3')
# Transcrire un fichier audio
result = model.transcribe(
'enregistrement.mp3',
language='fr',
verbose=True
)
print(result['text'])
# Avec timestamps
for segment in result['segments']:
print(f"[{segment['start']:.1f}s] {segment['text']}") 🎯 Compétences en cours
- Installation Whisper avec accélération GPU (CUDA)
- Transcription audio/vidéo en français et multilingue
- Sélection du modèle selon contraintes VRAM/vitesse
- Intégration dans pipeline n8n (Trigger audio → STT → LLM)
- IA multimodale : audio → texte → LLM → réponse