Voila : Modèles de fondation voix-langage pour l'interaction autonome en temps réel et le jeu de rôle vocal
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
May 5, 2025
Auteurs: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
cs.AI
Résumé
Un agent vocal IA qui s'intègre parfaitement à la vie quotidienne interagirait avec les humains de manière autonome, en temps réel et avec une expressivité émotionnelle. Plutôt que de se contenter de réagir à des commandes, il écouterait, raisonnerait et répondrait de manière proactive, favorisant des interactions fluides, dynamiques et émotionnellement résonantes. Nous présentons Voila, une famille de modèles de base vocaux-langagiers de grande envergure qui fait un pas vers cette vision. Voila dépasse les systèmes traditionnels en pipeline en adoptant une nouvelle architecture de bout en bout permettant des conversations en duplex intégral à faible latence, tout en préservant les nuances vocales riches telles que le ton, le rythme et l'émotion. Il atteint une latence de réponse de seulement 195 millisecondes, surpassant le temps de réponse humain moyen. Son Transformer hiérarchique multi-échelles intègre les capacités de raisonnement des grands modèles de langage (LLMs) avec une modélisation acoustique puissante, permettant une génération vocale naturelle et consciente de la persona — où les utilisateurs peuvent simplement écrire des instructions textuelles pour définir l'identité, le ton et d'autres caractéristiques du locuteur. De plus, Voila prend en charge plus d'un million de voix préconstruites et une personnalisation efficace de nouvelles voix à partir d'échantillons audio aussi courts que 10 secondes. Au-delà du dialogue parlé, Voila est conçu comme un modèle unifié pour une large gamme d'applications basées sur la voix, y compris la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et, avec une adaptation minimale, la traduction vocale multilingue. Voila est entièrement open-source pour soutenir la recherche ouverte et accélérer les progrès vers les interactions humain-machine de nouvelle génération.
English
A voice AI agent that blends seamlessly into daily life would interact with
humans in an autonomous, real-time, and emotionally expressive manner. Rather
than merely reacting to commands, it would continuously listen, reason, and
respond proactively, fostering fluid, dynamic, and emotionally resonant
interactions. We introduce Voila, a family of large voice-language foundation
models that make a step towards this vision. Voila moves beyond traditional
pipeline systems by adopting a new end-to-end architecture that enables
full-duplex, low-latency conversations while preserving rich vocal nuances such
as tone, rhythm, and emotion. It achieves a response latency of just 195
milliseconds, surpassing the average human response time. Its hierarchical
multi-scale Transformer integrates the reasoning capabilities of large language
models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware
voice generation -- where users can simply write text instructions to define
the speaker's identity, tone, and other characteristics. Moreover, Voila
supports over one million pre-built voices and efficient customization of new
ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue,
Voila is designed as a unified model for a wide range of voice-based
applications, including automatic speech recognition (ASR), Text-to-Speech
(TTS), and, with minimal adaptation, multilingual speech translation. Voila is
fully open-sourced to support open research and accelerate progress toward
next-generation human-machine interactions.Summary
AI-Generated Summary