Технический отчет VIBEVOICE-ASR

Аннотация

В данном отчете представлена система VibeVoice-ASR — универсальная система речевого понимания, построенная на основе VibeVoice и предназначенная для решения сохраняющихся проблем фрагментации контекста и многопользовательской сложности в длинных аудиозаписях (например, совещаниях, подкастах), которые остаются актуальными, несмотря на недавние достижения в области распознавания коротких речевых фрагментов. В отличие от традиционных конвейерных подходов, основанных на разбиении аудио на сегменты, VibeVoice-ASR поддерживает однопроходную обработку аудиоданных длительностью до 60 минут. Она объединяет автоматическое распознавание речи, диаризацию говорящих и временную разметку в единую задачу сквозной генерации. Кроме того, VibeVoice-ASR поддерживает более 50 языков, не требует явной установки языка и нативно обрабатывает код-свитчинг внутри и между высказываниями. Также мы представляем механизм инжекции контекста на основе промптов, который позволяет пользователям предоставлять специализированный контекст, что значительно повышает точность распознавания узкоспециализированной терминологии и разрешения неоднозначности полифонических символов.

English

This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.

Технический отчет VIBEVOICE-ASR

VIBEVOICE-ASR Technical Report

Аннотация

Support