Voila: Sprachbasierte Foundation-Modelle für Echtzeit-Autonome Interaktion und Sprachrollenspiel

papers.abstract

Ein Voice-AI-Agent, der sich nahtlos in den Alltag integriert, würde mit Menschen auf autonome, echtzeitfähige und emotional ausdrucksstarke Weise interagieren. Anstatt lediglich auf Befehle zu reagieren, würde er kontinuierlich zuhören, schlussfolgern und proaktiv antworten, wodurch flüssige, dynamische und emotional ansprechende Interaktionen gefördert würden. Wir stellen Voila vor, eine Familie großer Sprach-Grundlagenmodelle, die einen Schritt in Richtung dieser Vision machen. Voila geht über traditionelle Pipeline-Systeme hinaus, indem es eine neue End-to-End-Architektur einführt, die Vollduplex-Gespräche mit geringer Latenz ermöglicht und gleichzeitig reiche stimmliche Nuancen wie Tonfall, Rhythmus und Emotion bewahrt. Es erreicht eine Antwortlatenz von nur 195 Millisekunden und übertrifft damit die durchschnittliche menschliche Reaktionszeit. Sein hierarchischer Multi-Scale-Transformer integriert die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) mit leistungsstarker akustischer Modellierung und ermöglicht so eine natürliche, persoenenbewusste Stimmgenerierung – bei der Benutzer einfach Textanweisungen schreiben können, um die Identität, den Tonfall und andere Merkmale des Sprechers zu definieren. Darüber hinaus unterstützt Voila über eine Million vordefinierte Stimmen und die effiziente Anpassung neuer Stimmen aus kurzen Audioaufnahmen von nur 10 Sekunden. Über gesprochene Dialoge hinaus ist Voila als einheitliches Modell für eine Vielzahl von sprachbasierten Anwendungen konzipiert, einschließlich automatischer Spracherkennung (ASR), Text-zu-Sprache (TTS) und, mit minimaler Anpassung, mehrsprachiger Sprachübersetzung. Voila ist vollständig quelloffen, um offene Forschung zu unterstützen und den Fortschritt in Richtung der nächsten Generation von Mensch-Maschine-Interaktionen zu beschleunigen.

English

A voice AI agent that blends seamlessly into daily life would interact with humans in an autonomous, real-time, and emotionally expressive manner. Rather than merely reacting to commands, it would continuously listen, reason, and respond proactively, fostering fluid, dynamic, and emotionally resonant interactions. We introduce Voila, a family of large voice-language foundation models that make a step towards this vision. Voila moves beyond traditional pipeline systems by adopting a new end-to-end architecture that enables full-duplex, low-latency conversations while preserving rich vocal nuances such as tone, rhythm, and emotion. It achieves a response latency of just 195 milliseconds, surpassing the average human response time. Its hierarchical multi-scale Transformer integrates the reasoning capabilities of large language models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware voice generation -- where users can simply write text instructions to define the speaker's identity, tone, and other characteristics. Moreover, Voila supports over one million pre-built voices and efficient customization of new ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue, Voila is designed as a unified model for a wide range of voice-based applications, including automatic speech recognition (ASR), Text-to-Speech (TTS), and, with minimal adaptation, multilingual speech translation. Voila is fully open-sourced to support open research and accelerate progress toward next-generation human-machine interactions.

Voila: Sprachbasierte Foundation-Modelle für Echtzeit-Autonome Interaktion und Sprachrollenspiel

Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

papers.abstract

Support