Voila: Modelli Fondamentali Voce-Linguaggio per Interazione Autonoma in Tempo Reale e Role-Play Vocale
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
May 5, 2025
Autori: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
cs.AI
Abstract
Un agente vocale basato sull'intelligenza artificiale che si integra perfettamente nella vita quotidiana interagirebbe con gli esseri umani in modo autonomo, in tempo reale e con espressività emotiva. Piuttosto che limitarsi a reagire ai comandi, ascolterebbe, ragionerebbe e risponderebbe in modo proattivo, favorendo interazioni fluide, dinamiche e emotivamente coinvolgenti. Presentiamo Voila, una famiglia di modelli di base per il linguaggio vocale su larga scala che rappresenta un passo avanti verso questa visione. Voila supera i tradizionali sistemi a pipeline adottando una nuova architettura end-to-end che consente conversazioni full-duplex a bassa latenza, preservando al contempo ricche sfumature vocali come tono, ritmo ed emozione. Raggiunge una latenza di risposta di soli 195 millisecondi, superando il tempo medio di risposta umano. Il suo Transformer gerarchico multi-scala integra le capacità di ragionamento dei grandi modelli linguistici (LLM) con una potente modellazione acustica, consentendo una generazione vocale naturale e consapevole della personalità, in cui gli utenti possono semplicemente scrivere istruzioni testuali per definire l'identità, il tono e altre caratteristiche del parlante. Inoltre, Voila supporta oltre un milione di voci pre-costruite e una personalizzazione efficiente di nuove voci a partire da brevi campioni audio di soli 10 secondi. Oltre al dialogo parlato, Voila è progettato come un modello unificato per una vasta gamma di applicazioni basate sulla voce, tra cui il riconoscimento vocale automatico (ASR), la sintesi vocale (TTS) e, con un adattamento minimo, la traduzione vocale multilingue. Voila è completamente open-source per supportare la ricerca aperta e accelerare il progresso verso le interazioni uomo-macchina di prossima generazione.
English
A voice AI agent that blends seamlessly into daily life would interact with
humans in an autonomous, real-time, and emotionally expressive manner. Rather
than merely reacting to commands, it would continuously listen, reason, and
respond proactively, fostering fluid, dynamic, and emotionally resonant
interactions. We introduce Voila, a family of large voice-language foundation
models that make a step towards this vision. Voila moves beyond traditional
pipeline systems by adopting a new end-to-end architecture that enables
full-duplex, low-latency conversations while preserving rich vocal nuances such
as tone, rhythm, and emotion. It achieves a response latency of just 195
milliseconds, surpassing the average human response time. Its hierarchical
multi-scale Transformer integrates the reasoning capabilities of large language
models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware
voice generation -- where users can simply write text instructions to define
the speaker's identity, tone, and other characteristics. Moreover, Voila
supports over one million pre-built voices and efficient customization of new
ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue,
Voila is designed as a unified model for a wide range of voice-based
applications, including automatic speech recognition (ASR), Text-to-Speech
(TTS), and, with minimal adaptation, multilingual speech translation. Voila is
fully open-sourced to support open research and accelerate progress toward
next-generation human-machine interactions.