Voila: Modelos Fundamentais de Voz-Linguagem para Interação Autônoma em Tempo Real e Role-Play de Voz
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
May 5, 2025
Autores: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
cs.AI
Resumo
Um agente de IA de voz que se integra perfeitamente à vida diária interagiria com os humanos de forma autônoma, em tempo real e com expressividade emocional. Em vez de apenas reagir a comandos, ele ouviria, raciocinaria e responderia de maneira proativa, promovendo interações fluidas, dinâmicas e emocionalmente ressonantes. Apresentamos Voila, uma família de modelos fundamentais de voz e linguagem de grande escala que dão um passo em direção a essa visão. Voila vai além dos sistemas tradicionais em pipeline ao adotar uma nova arquitetura de ponta a ponta que permite conversas full-duplex de baixa latência, preservando nuances vocais ricas, como tom, ritmo e emoção. Ele alcança uma latência de resposta de apenas 195 milissegundos, superando o tempo médio de resposta humana. Seu Transformer hierárquico de múltiplas escalas integra as capacidades de raciocínio dos grandes modelos de linguagem (LLMs) com uma poderosa modelagem acústica, permitindo a geração de voz natural e consciente da persona — onde os usuários podem simplesmente escrever instruções em texto para definir a identidade, o tom e outras características do falante. Além disso, Voila suporta mais de um milhão de vozes pré-construídas e a personalização eficiente de novas vozes a partir de amostras de áudio breves, com duração de apenas 10 segundos. Além do diálogo falado, Voila foi projetado como um modelo unificado para uma ampla gama de aplicações baseadas em voz, incluindo reconhecimento automático de fala (ASR), conversão de texto em fala (TTS) e, com mínima adaptação, tradução de fala multilíngue. Voila é totalmente de código aberto para apoiar pesquisas abertas e acelerar o progresso em direção à próxima geração de interações homem-máquina.
English
A voice AI agent that blends seamlessly into daily life would interact with
humans in an autonomous, real-time, and emotionally expressive manner. Rather
than merely reacting to commands, it would continuously listen, reason, and
respond proactively, fostering fluid, dynamic, and emotionally resonant
interactions. We introduce Voila, a family of large voice-language foundation
models that make a step towards this vision. Voila moves beyond traditional
pipeline systems by adopting a new end-to-end architecture that enables
full-duplex, low-latency conversations while preserving rich vocal nuances such
as tone, rhythm, and emotion. It achieves a response latency of just 195
milliseconds, surpassing the average human response time. Its hierarchical
multi-scale Transformer integrates the reasoning capabilities of large language
models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware
voice generation -- where users can simply write text instructions to define
the speaker's identity, tone, and other characteristics. Moreover, Voila
supports over one million pre-built voices and efficient customization of new
ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue,
Voila is designed as a unified model for a wide range of voice-based
applications, including automatic speech recognition (ASR), Text-to-Speech
(TTS), and, with minimal adaptation, multilingual speech translation. Voila is
fully open-sourced to support open research and accelerate progress toward
next-generation human-machine interactions.