Voila: Modelos Fundamentales de Voz-Lenguaje para la Interacción Autónoma en Tiempo Real y el Rol de Voz
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
May 5, 2025
Autores: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
cs.AI
Resumen
Un agente de IA de voz que se integre perfectamente en la vida diaria interactuaría con los seres humanos de manera autónoma, en tiempo real y con expresividad emocional. En lugar de limitarse a reaccionar ante comandos, escucharía, razonaría y respondería de forma proactiva, fomentando interacciones fluidas, dinámicas y emocionalmente resonantes. Presentamos Voila, una familia de modelos fundamentales de voz y lenguaje que dan un paso hacia esta visión. Voila va más allá de los sistemas tradicionales en cascada al adoptar una nueva arquitectura de extremo a extremo que permite conversaciones full-duplex de baja latencia, preservando matices vocales ricos como el tono, el ritmo y la emoción. Logra una latencia de respuesta de solo 195 milisegundos, superando el tiempo de respuesta promedio humano. Su Transformer jerárquico de múltiples escalas integra las capacidades de razonamiento de los grandes modelos de lenguaje (LLMs) con un potente modelado acústico, permitiendo una generación de voz natural y consciente de la personalidad, donde los usuarios pueden simplemente escribir instrucciones de texto para definir la identidad, el tono y otras características del hablante. Además, Voila admite más de un millón de voces preconstruidas y una personalización eficiente de nuevas voces a partir de muestras de audio breves, de tan solo 10 segundos. Más allá del diálogo hablado, Voila está diseñado como un modelo unificado para una amplia gama de aplicaciones basadas en voz, incluyendo reconocimiento automático de voz (ASR), conversión de texto a voz (TTS) y, con una adaptación mínima, traducción de voz multilingüe. Voila es completamente de código abierto para apoyar la investigación abierta y acelerar el progreso hacia la próxima generación de interacciones humano-máquina.
English
A voice AI agent that blends seamlessly into daily life would interact with
humans in an autonomous, real-time, and emotionally expressive manner. Rather
than merely reacting to commands, it would continuously listen, reason, and
respond proactively, fostering fluid, dynamic, and emotionally resonant
interactions. We introduce Voila, a family of large voice-language foundation
models that make a step towards this vision. Voila moves beyond traditional
pipeline systems by adopting a new end-to-end architecture that enables
full-duplex, low-latency conversations while preserving rich vocal nuances such
as tone, rhythm, and emotion. It achieves a response latency of just 195
milliseconds, surpassing the average human response time. Its hierarchical
multi-scale Transformer integrates the reasoning capabilities of large language
models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware
voice generation -- where users can simply write text instructions to define
the speaker's identity, tone, and other characteristics. Moreover, Voila
supports over one million pre-built voices and efficient customization of new
ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue,
Voila is designed as a unified model for a wide range of voice-based
applications, including automatic speech recognition (ASR), Text-to-Speech
(TTS), and, with minimal adaptation, multilingual speech translation. Voila is
fully open-sourced to support open research and accelerate progress toward
next-generation human-machine interactions.Summary
AI-Generated Summary