Valutazione Vocale delle Capacità di Ragionamento: Diagnosi del Divario di Prestazione Indotto dalla Modalità
Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
September 30, 2025
Autori: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI
Abstract
Presentiamo Voice Evaluation of Reasoning Ability (VERA), un benchmark per valutare la capacità di ragionamento nei sistemi interattivi vocali sotto i vincoli di conversazione in tempo reale. VERA comprende 2.931 episodi nativi vocali derivati da benchmark testuali consolidati e organizzati in cinque tracce (Matematica, Web, Scienza, Contesto Lungo, Fattuale). Ogni elemento è adattato per l'interazione vocale mantenendo la difficoltà di ragionamento. VERA consente un confronto diretto testo-voce all'interno delle famiglie di modelli e supporta l'analisi di come le scelte architetturali influenzino l'affidabilità. Valutiamo 12 sistemi vocali contemporanei insieme a solidi baseline testuali e osserviamo ampi e consistenti gap di modalità: nella matematica competitiva, un modello testuale leader raggiunge il 74,8% di accuratezza mentre la sua controparte vocale arriva al 6,1%; in media macro tra le tracce, i migliori modelli testuali raggiungono il 54,0% contro l'11,3% dei modelli vocali. Le analisi latenza-accuratezza rivelano un plateau a bassa latenza, dove i sistemi vocali veloci si raggruppano intorno al ~10% di accuratezza, mentre avvicinarsi alle prestazioni testuali richiede di sacrificare l'interazione in tempo reale. Esperimenti diagnostici indicano che le mitigazioni comuni sono insufficienti. Aumentare il "tempo di pensiero" produce guadagni trascurabili; una cascata disaccoppiata che separa il ragionamento dalla narrazione migliora l'accuratezza ma rimane ben al di sotto del testo e introduce errori caratteristici di grounding/consistenza. Le analisi dei fallimenti mostrano inoltre firme di errore distinte tra i design nativi di streaming, end-to-end e a cascata. VERA fornisce un banco di prova riproducibile e diagnostiche mirate per architetture che disaccoppiano il pensiero dal parlare, offrendo un modo strutturato per misurare i progressi verso assistenti vocali in tempo reale che siano sia fluenti che affidabilmente ragionati.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for
evaluating reasoning ability in voice-interactive systems under real-time
conversational constraints. VERA comprises 2,931 voice-native episodes derived
from established text benchmarks and organized into five tracks (Math, Web,
Science, Long-Context, Factual). Each item is adapted for speech interaction
while preserving reasoning difficulty. VERA enables direct text-voice
comparison within model families and supports analysis of how architectural
choices affect reliability. We assess 12 contemporary voice systems alongside
strong text baselines and observe large, consistent modality gaps: on
competition mathematics a leading text model attains 74.8% accuracy while its
voice counterpart reaches 6.1%; macro-averaged across tracks the best text
models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a
low-latency plateau, where fast voice systems cluster around ~10% accuracy,
while approaching text performance requires sacrificing real-time interaction.
Diagnostic experiments indicate that common mitigations are insufficient.
Increasing "thinking time" yields negligible gains; a decoupled cascade that
separates reasoning from narration improves accuracy but still falls well short
of text and introduces characteristic grounding/consistency errors. Failure
analyses further show distinct error signatures across native streaming,
end-to-end, and cascade designs. VERA provides a reproducible testbed and
targeted diagnostics for architectures that decouple thinking from speaking,
offering a principled way to measure progress toward real-time voice assistants
that are both fluent and reliably reasoned.