Rapporto Tecnico VIBEVOICE-ASR

Abstract

Questo rapporto presenta VibeVoice-ASR, un framework generale per la comprensione del parlato basato su VibeVoice, progettato per affrontare le persistenti sfide della frammentazione del contesto e della complessità multi-relatore nell'audio di lunga durata (ad esempio, riunioni, podcast), che permangono nonostante i recenti progressi nel riconoscimento vocale per audio brevi. A differenza degli approcci tradizionali a pipeline che si basano sul frammentamento dell'audio, VibeVoice-ASR supporta l'elaborazione in un'unica passata per audio fino a 60 minuti. Esso unifica il Riconoscimento Vocale Automatico, la Diarizzazione del Parlato e la Marcatura Temporale in un'unica attività di generazione end-to-end. Inoltre, VibeVoice-ASR supporta oltre 50 lingue, non richiede un'impostazione linguistica esplicita e gestisce nativamente il code-switching all'interno e tra le espressioni. Inoltre, introduciamo un meccanismo di iniezione del contesto basato su prompt che consente agli utenti di fornire contesto personalizzato, migliorando significativamente l'accuratezza nella terminologia specifica di dominio e nella disambiguazione di caratteri polifonici.

English

This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.

Rapporto Tecnico VIBEVOICE-ASR

VIBEVOICE-ASR Technical Report

Abstract

Support