Speech AI — Whisper — Portfolio IA On-Premise

🎙️ Modèles Whisper

Modèle	VRAM	Vitesse	Précision	Recommandé
tiny	~1 Go	⚡⚡⚡⚡	★★	Non
base	~1 Go	⚡⚡⚡	★★★	Non
small	~2 Go	⚡⚡	★★★★	Démo rapide
medium	~5 Go	⚡	★★★★	Bon compromis
large-v3	~10 Go		★★★★★	✅ RTX 5090

💾 Dataset ZFS

Dataset	Contenu
whisper	Modèles Whisper (checkpoints)

🐍 Exemple Python

python

import whisper

# Charger le modèle (téléchargé si absent)
model = whisper.load_model('large-v3')

# Transcrire un fichier audio
result = model.transcribe(
    'enregistrement.mp3',
    language='fr',
    verbose=True
)

print(result['text'])

# Avec timestamps
for segment in result['segments']:
    print(f"[{segment['start']:.1f}s] {segment['text']}")

🎯 Compétences en cours

Installation Whisper avec accélération GPU (CUDA)
Transcription audio/vidéo en français et multilingue
Sélection du modèle selon contraintes VRAM/vitesse
Intégration dans pipeline n8n (Trigger audio → STT → LLM)
IA multimodale : audio → texte → LLM → réponse

Speech AI — Whisper

Pages liées