Voila: Фундаментальные модели голосового языка для автономного взаимодействия в реальном времени и голосовых ролевых игр

Аннотация

Голосовой ИИ-агент, который органично вписывается в повседневную жизнь, взаимодействовал бы с людьми автономно, в режиме реального времени и с эмоциональной выразительностью. Вместо того чтобы просто реагировать на команды, он бы непрерывно слушал, анализировал и отвечал проактивно, способствуя плавным, динамичным и эмоционально насыщенным взаимодействиям. Мы представляем Voila — семейство крупных голосово-языковых базовых моделей, которые делают шаг к реализации этого видения. Voila выходит за рамки традиционных систем с последовательной обработкой, предлагая новую сквозную архитектуру, которая обеспечивает полнодуплексные, низколатентные диалоги с сохранением богатых вокальных нюансов, таких как тон, ритм и эмоции. Она достигает задержки ответа всего в 195 миллисекунд, превосходя среднее время реакции человека. Её иерархический многоуровневый Transformer объединяет аналитические способности крупных языковых моделей (LLM) с мощным акустическим моделированием, позволяя создавать естественный, персонализированный голос — пользователи могут просто писать текстовые инструкции для определения идентичности, тона и других характеристик говорящего. Более того, Voila поддерживает более миллиона предварительно созданных голосов и эффективную настройку новых на основе коротких аудиозаписей длиной всего 10 секунд. Помимо устного диалога, Voila разработана как универсальная модель для широкого спектра голосовых приложений, включая автоматическое распознавание речи (ASR), преобразование текста в речь (TTS) и, с минимальной адаптацией, многоязыковой перевод речи. Voila полностью открыта для исследований, чтобы поддержать открытую науку и ускорить прогресс в области взаимодействия человека и машины следующего поколения.

English

A voice AI agent that blends seamlessly into daily life would interact with humans in an autonomous, real-time, and emotionally expressive manner. Rather than merely reacting to commands, it would continuously listen, reason, and respond proactively, fostering fluid, dynamic, and emotionally resonant interactions. We introduce Voila, a family of large voice-language foundation models that make a step towards this vision. Voila moves beyond traditional pipeline systems by adopting a new end-to-end architecture that enables full-duplex, low-latency conversations while preserving rich vocal nuances such as tone, rhythm, and emotion. It achieves a response latency of just 195 milliseconds, surpassing the average human response time. Its hierarchical multi-scale Transformer integrates the reasoning capabilities of large language models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware voice generation -- where users can simply write text instructions to define the speaker's identity, tone, and other characteristics. Moreover, Voila supports over one million pre-built voices and efficient customization of new ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue, Voila is designed as a unified model for a wide range of voice-based applications, including automatic speech recognition (ASR), Text-to-Speech (TTS), and, with minimal adaptation, multilingual speech translation. Voila is fully open-sourced to support open research and accelerate progress toward next-generation human-machine interactions.