Voila: リアルタイム自律的インタラクションと音声ロールプレイのための音声-言語基盤モデル
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
May 5, 2025
著者: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu
cs.AI
要旨
日常生活にシームレスに溶け込む音声AIエージェントは、自律的かつリアルタイムで、感情表現豊かに人間と対話する。単に命令に反応するだけでなく、継続的に聞き、推論し、積極的に応答することで、流動的でダイナミックかつ感情的に共鳴する相互作用を促進する。本稿では、このビジョンに向けた一歩を踏み出す大規模音声言語基盤モデル群「Voila」を紹介する。Voilaは、従来のパイプラインシステムを超え、新しいエンドツーエンドアーキテクチャを採用することで、フルデュプレックスで低遅延の会話を実現しつつ、トーン、リズム、感情といった豊かな音声ニュアンスを保持する。その応答遅延はわずか195ミリ秒であり、人間の平均応答時間を上回る。階層型マルチスケールTransformerは、大規模言語モデル(LLM)の推論能力と強力な音響モデリングを統合し、自然で人物認識型の音声生成を可能にする。ユーザーはテキスト指示を書くだけで、話者のアイデンティティ、トーン、その他の特性を定義できる。さらに、Voilaは100万以上の事前構築された音声をサポートし、わずか10秒の短い音声サンプルから新しい音声を効率的にカスタマイズできる。音声対話を超えて、Voilaは自動音声認識(ASR)、テキスト読み上げ(TTS)、そして最小限の適応で多言語音声翻訳を含む幅広い音声ベースのアプリケーションのための統一モデルとして設計されている。Voilaは完全にオープンソース化されており、オープンな研究を支援し、次世代の人間と機械の相互作用に向けた進歩を加速する。
English
A voice AI agent that blends seamlessly into daily life would interact with
humans in an autonomous, real-time, and emotionally expressive manner. Rather
than merely reacting to commands, it would continuously listen, reason, and
respond proactively, fostering fluid, dynamic, and emotionally resonant
interactions. We introduce Voila, a family of large voice-language foundation
models that make a step towards this vision. Voila moves beyond traditional
pipeline systems by adopting a new end-to-end architecture that enables
full-duplex, low-latency conversations while preserving rich vocal nuances such
as tone, rhythm, and emotion. It achieves a response latency of just 195
milliseconds, surpassing the average human response time. Its hierarchical
multi-scale Transformer integrates the reasoning capabilities of large language
models (LLMs) with powerful acoustic modeling, enabling natural, persona-aware
voice generation -- where users can simply write text instructions to define
the speaker's identity, tone, and other characteristics. Moreover, Voila
supports over one million pre-built voices and efficient customization of new
ones from brief audio samples as short as 10 seconds. Beyond spoken dialogue,
Voila is designed as a unified model for a wide range of voice-based
applications, including automatic speech recognition (ASR), Text-to-Speech
(TTS), and, with minimal adaptation, multilingual speech translation. Voila is
fully open-sourced to support open research and accelerate progress toward
next-generation human-machine interactions.Summary
AI-Generated Summary