Relatório Técnico do VIBEVOICE-ASR

Resumo

Este relatório apresenta o VibeVoice-ASR, uma estrutura de compreensão de voz de propósito geral construída sobre o VibeVoice, projetada para abordar os desafios persistentes de fragmentação de contexto e complexidade de múltiplos interlocutores em áudios de longa duração (por exemplo, reuniões, podcasts), que permanecem apesar dos avanços recentes no reconhecimento de fala de curta duração. Diferente das abordagens tradicionais em pipeline que dependem do fracionamento de áudio, o VibeVoice-ASR suporta processamento em passagem única para áudios de até 60 minutos. Ele unifica o Reconhecimento Automático de Fala, a Diarização de Locutores e a Marcação Temporal em uma única tarefa de geração de fim a fim. Além disso, o VibeVoice-ASR suporta mais de 50 idiomas, não requer configuração explícita de idioma e lida nativamente com a alternância de código dentro e entre enunciados. Adicionalmente, introduzimos um mecanismo de injeção de contexto baseado em *prompts* que permite aos usuários fornecer contexto personalizado, melhorando significativamente a precisão na terminologia específica de domínio e no desambiguamento de caracteres polifónicos.

English

This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.