ChatPaper.aiChatPaper

Технический отчет VIBEVOICE-ASR

VIBEVOICE-ASR Technical Report

January 26, 2026
Авторы: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI

Аннотация

В данном отчете представлена система VibeVoice-ASR — универсальная система речевого понимания, построенная на основе VibeVoice и предназначенная для решения сохраняющихся проблем фрагментации контекста и многопользовательской сложности в длинных аудиозаписях (например, совещаниях, подкастах), которые остаются актуальными, несмотря на недавние достижения в области распознавания коротких речевых фрагментов. В отличие от традиционных конвейерных подходов, основанных на разбиении аудио на сегменты, VibeVoice-ASR поддерживает однопроходную обработку аудиоданных длительностью до 60 минут. Она объединяет автоматическое распознавание речи, диаризацию говорящих и временную разметку в единую задачу сквозной генерации. Кроме того, VibeVoice-ASR поддерживает более 50 языков, не требует явной установки языка и нативно обрабатывает код-свитчинг внутри и между высказываниями. Также мы представляем механизм инжекции контекста на основе промптов, который позволяет пользователям предоставлять специализированный контекст, что значительно повышает точность распознавания узкоспециализированной терминологии и разрешения неоднозначности полифонических символов.
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
PDF111January 28, 2026