Voxtral
Mistral AIVoix neutres polyglottes. Idéal pour annonces institutionnelles et multilingue répété.
Narrateur invisible pour show control. Synthèse vocale multi-moteur, latence courte, voix clonables. Whisperwood donne une voix au narrateur — le secret transmis bouche à oreille au cœur de la forêt.
6 moteurs · 200+ voix · 40+ langues · Clonage one-shot
Whisperwood agrège 6 moteurs de synthèse vocale — 4 cloud (Mistral Voxtral, Cartesia Sonic-2, ElevenLabs Multilingual v2, OpenAI TTS HD) et 2 self-host gratuits (Kokoro, Bark) — derrière une seule API et une seule UI. Pas n'importe quel TTS — le moteur narratif des spectacles, des annonces, des persos clonés.
Génération < 200 ms (Cartesia), clonage one-shot 10–60 s (Voxtral, Cartesia, ElevenLabs), 40+ langues, expressivité narrative avec balises [laughs] [sighs] [whispers] (Bark), cache disque LRU, budget cap quotidien. Pilotable par OSC, REST, Node-RED, Chataigne, QLab.
Service privé hébergé par Darkvalley. Pas de signup public, pas de tracking tiers. Le dashboard demande login + 2FA, la landing reste accessible à toute l'équipe.
Chacun a sa force. Le dashboard te laisse comparer en parallèle pour choisir le bon.
Voix neutres polyglottes. Idéal pour annonces institutionnelles et multilingue répété.
Le plus rapide. 5 émotions, idéal cue live, déclenchement temps-réel.
Référence qualité expressive. Voix signature, personnages récurrents, émotion fine.
Cloud middle tier fiable. Voix HD fixes, fallback robuste sans dépendance hardware.
82M params MIT. Idéal annonces volumiques répétitives — zéro coût marginal.
Balises expressives [laughs] [sighs] [whispers]. Idéal personnages narratifs et atmosphère théâtrale.
Narrateur invisible qui ouvre la pièce, voix off entre les actes, doublages de personnages absents. ElevenLabs pour la voix signature, Cartesia pour les répliques au cue.
ElevenLabs · CartesiaVoix du gardien des lieux, indices murmurés, personnages PNJ déclenchés au capteur. Bark pour les chuchotements, Kokoro pour les annonces volumiques.
Bark · KokoroNarration longue, voix clonée pour cohérence, doublage multilingue. Voxtral pour la base économique, ElevenLabs pour la signature.
Voxtral · ElevenLabs · OpenAIVoix temps-réel pour personnage interactif, déclenchement au capteur. Cartesia pour la latence sous 200 ms, voix fixées par catalog.
Cartesia · OpenAI/api/tts/sayLe client envoie le texte, choisit la voix, l'engine et le format. Authentification via Bearer token, pas de session à gérer. Compatible OSC, REST, ou wrapper CLI.
Whisperwood route vers le moteur choisi parmi les 6 (4 cloud + 2 self-host). Cache disque LRU sur le hash texte+voix : si la phrase est déjà connue, retour immédiat sans nouvelle facturation. Budget cap par jour, par engine.
Le client reçoit le fichier audio, ses dimensions, sa latence, et le filename canonique <slug>__<voice>__<engine>__<sha8>.mp3. Lecture immédiate ou archivage local pour replay.
Whisperwood s'invite dans la chaîne show control existante. Aucun adaptateur ad-hoc — REST, OSC ou wrapper CLI suffisent. La même API que tu connais déjà côté Obsidian Forge ou Sentry Watch.
wne CLIWhisper · le murmure, la voix qui se forme à peine, le secret transmis bouche à oreille au cœur de la forêt. Voix fragile et intime — exactement la sensation d'un narrateur qui s'adresse au public.
Wood · la forêt enchantée, lieu central de la cosmologie Darkvalley. Le bois qui, creux, devient instrument résonant — flûte, cor, lyre.
Tension voulue : intimité du chuchotement × immensité de la forêt. Le détail audio infime au service d'une atmosphère immersive vaste.