ChatPaper.aiChatPaper

VIBEVOICE-ASR 技術報告書

VIBEVOICE-ASR Technical Report

January 26, 2026
著者: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI

要旨

本報告では、長音声(会議、ポッドキャストなど)における文脈の断片化や複数話者の複雑さといった、短時間音声認識の近年の進歩にもかかわらず解決が困難な課題に対処するため、VibeVoiceを基盤とした汎用音声理解フレームワーク「VibeVoice-ASR」を提案する。音声チャンキングに依存する従来のパイプライン方式とは異なり、VibeVoice-ASRは最大60分の音声を単一パスで処理する。自動音声認識、話者分離、タイムスタンプ付与を単一のエンドツーエンド生成タスクに統合している。さらに、VibeVoice-ASRは50以上の言語をサポートし、明示的な言語設定を必要とせず、発話内および発話間のコードスイッチをネイティブに処理する。加えて、ユーザーがカスタマイズした文脈を投入可能なプロンプトベースの文脈注入機構を導入し、専門用語や同音異義語の曖昧性解消における精度を大幅に向上させる。
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
PDF111January 28, 2026