Voila: Stemmodellen voor Spraak-Taal voor Real-Time Autonome Interactie en Spraak-Rolspel
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
May 5, 2025
Auteurs: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
cs.AI
Samenvatting
Een stem-AI-agent die naadloos in het dagelijks leven integreert, zou op een autonome, real-time en emotioneel expressieve manier met mensen interacteren. In plaats van slechts te reageren op commando’s, zou het continu luisteren, redeneren en proactief reageren, waardoor vloeiende, dynamische en emotioneel resonerende interacties ontstaan. Wij introduceren Voila, een familie van grote stem-taal foundation-modellen die een stap zetten in de richting van deze visie. Voila gaat verder dan traditionele pipelinesystemen door een nieuwe end-to-end architectuur te hanteren die volledig-duplex, low-latency gesprekken mogelijk maakt, terwijl rijke vocale nuances zoals toon, ritme en emotie behouden blijven. Het bereikt een reactietijd van slechts 195 milliseconden, wat de gemiddelde menselijke reactietijd overtreft. De hiërarchische multi-schaal Transformer integreert de redeneercapaciteiten van grote taalmodellen (LLM’s) met krachtige akoestische modellering, waardoor natuurlijke, persona-bewuste stemgeneratie mogelijk wordt – waarbij gebruikers eenvoudig tekstinstructies kunnen schrijven om de identiteit, toon en andere kenmerken van de spreker te definiëren. Bovendien ondersteunt Voila meer dan een miljoen vooraf gebouwde stemmen en efficiënte aanpassing van nieuwe stemmen op basis van korte audiovoorbeelden van slechts 10 seconden. Naast gesproken dialoog is Voila ontworpen als een uniform model voor een breed scala aan stemgebaseerde toepassingen, waaronder automatische spraakherkenning (ASR), tekst-naar-spraak (TTS) en, met minimale aanpassing, meertalige spraakvertaling. Voila is volledig open-source om open onderzoek te ondersteunen en de vooruitgang naar de volgende generatie mens-machine-interacties te versnellen.
English
A voice AI agent that blends seamlessly into daily life would interact with
humans in an autonomous, real-time, and emotionally expressive manner. Rather
than merely reacting to commands, it would continuously listen, reason, and
respond proactively, fostering fluid, dynamic, and emotionally resonant
interactions. We introduce Voila, a family of large voice-language foundation
models that make a step towards this vision. Voila moves beyond traditional
pipeline systems by adopting a new end-to-end architecture that enables
full-duplex, low-latency conversations while preserving rich vocal nuances such
as tone, rhythm, and emotion. It achieves a response latency of just 195
milliseconds, surpassing the average human response time. Its hierarchical
multi-scale Transformer integrates the reasoning capabilities of large language
models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware
voice generation -- where users can simply write text instructions to define
the speaker's identity, tone, and other characteristics. Moreover, Voila
supports over one million pre-built voices and efficient customization of new
ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue,
Voila is designed as a unified model for a wide range of voice-based
applications, including automatic speech recognition (ASR), Text-to-Speech
(TTS), and, with minimal adaptation, multilingual speech translation. Voila is
fully open-sourced to support open research and accelerate progress toward
next-generation human-machine interactions.