Avaliação de Habilidade de Raciocínio por Voz: Diagnosticando a Lacuna de Desempenho Induzida pela Modalidade
Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
September 30, 2025
Autores: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI
Resumo
Apresentamos o Voice Evaluation of Reasoning Ability (VERA), um benchmark para avaliar a capacidade de raciocínio em sistemas interativos por voz sob restrições de conversação em tempo real. O VERA compreende 2.931 episódios nativos de voz derivados de benchmarks de texto estabelecidos e organizados em cinco categorias (Matemática, Web, Ciência, Contexto Longo, Fatual). Cada item é adaptado para interação por voz, mantendo a dificuldade de raciocínio. O VERA permite comparação direta entre texto e voz dentro de famílias de modelos e suporta a análise de como escolhas arquitetônicas afetam a confiabilidade. Avaliamos 12 sistemas de voz contemporâneos juntamente com fortes baselines de texto e observamos grandes e consistentes lacunas de modalidade: em matemática competitiva, um modelo líder de texto atinge 74,8% de precisão, enquanto sua contraparte de voz alcança 6,1%; em média macro entre as categorias, os melhores modelos de texto atingem 54,0% contra 11,3% para voz. Análises de latência-precisão revelam um platô de baixa latência, onde sistemas de voz rápidos se agrupam em torno de ~10% de precisão, enquanto a aproximação do desempenho de texto exige o sacrifício da interação em tempo real. Experimentos diagnósticos indicam que mitigações comuns são insuficientes. Aumentar o "tempo de pensamento" gera ganhos insignificantes; uma cascata desacoplada que separa o raciocínio da narração melhora a precisão, mas ainda fica bem aquém do texto e introduz erros característicos de ancoragem/consistência. Análises de falhas mostram ainda assinaturas distintas de erros entre designs nativos de streaming, end-to-end e em cascata. O VERA fornece um ambiente de teste reproduzível e diagnósticos direcionados para arquiteturas que desacoplam o pensamento da fala, oferecendo uma maneira fundamentada de medir o progresso em direção a assistentes de voz em tempo real que sejam tanto fluentes quanto confiáveis em seu raciocínio.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for
evaluating reasoning ability in voice-interactive systems under real-time
conversational constraints. VERA comprises 2,931 voice-native episodes derived
from established text benchmarks and organized into five tracks (Math, Web,
Science, Long-Context, Factual). Each item is adapted for speech interaction
while preserving reasoning difficulty. VERA enables direct text-voice
comparison within model families and supports analysis of how architectural
choices affect reliability. We assess 12 contemporary voice systems alongside
strong text baselines and observe large, consistent modality gaps: on
competition mathematics a leading text model attains 74.8% accuracy while its
voice counterpart reaches 6.1%; macro-averaged across tracks the best text
models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a
low-latency plateau, where fast voice systems cluster around ~10% accuracy,
while approaching text performance requires sacrificing real-time interaction.
Diagnostic experiments indicate that common mitigations are insufficient.
Increasing "thinking time" yields negligible gains; a decoupled cascade that
separates reasoning from narration improves accuracy but still falls well short
of text and introduces characteristic grounding/consistency errors. Failure
analyses further show distinct error signatures across native streaming,
end-to-end, and cascade designs. VERA provides a reproducible testbed and
targeted diagnostics for architectures that decouple thinking from speaking,
offering a principled way to measure progress toward real-time voice assistants
that are both fluent and reliably reasoned.