ChatPaper.aiChatPaper

Evaluatie van Redeneervermogen via Stem: Diagnose van de Prestatiekloof Veroorzaakt door Modaliteit

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

September 30, 2025
Auteurs: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI

Samenvatting

We presenteren Voice Evaluation of Reasoning Ability (VERA), een benchmark voor het evalueren van redeneervermogen in spraakinteractieve systemen onder real-time gespreksbeperkingen. VERA bestaat uit 2.931 spraakgerichte episodes afgeleid van gevestigde tekstbenchmarks en georganiseerd in vijf tracks (Wiskunde, Web, Wetenschap, Lange Context, Feitelijk). Elk item is aangepast voor spraakinteractie terwijl de redeneermoeilijkheid behouden blijft. VERA maakt directe tekst-spraakvergelijkingen mogelijk binnen modelfamilies en ondersteunt analyse van hoe architectuurkeuzes de betrouwbaarheid beïnvloeden. We evalueren 12 hedendaagse spraaksystemen naast sterke tekstbaselines en observeren grote, consistente modaliteitsverschillen: bij wedstrijdwiskunde behaalt een toonaangevend tekstmodel 74,8% nauwkeurigheid, terwijl het bijbehorende spraakmodel 6,1% haalt; gemiddeld over de tracks behalen de beste tekstmodellen 54,0% versus 11,3% voor spraak. Latentie-nauwkeurigheidsanalyses onthullen een plateau bij lage latentie, waar snelle spraaksystemen clusteren rond ~10% nauwkeurigheid, terwijl het benaderen van tekstprestaties het opofferen van real-time interactie vereist. Diagnostische experimenten geven aan dat veelvoorkomende mitigaties onvoldoende zijn. Het verlengen van "denktijd" levert verwaarloosbare verbeteringen op; een ontkoppelde cascade die redeneren scheidt van vertellen verbetert de nauwkeurigheid maar blijft ver achter bij tekst en introduceert karakteristieke grondings-/consistentiefouten. Foutanalyses tonen verder verschillende foutsignaturen tussen native streaming, end-to-end en cascade-ontwerpen. VERA biedt een reproduceerbare testomgeving en gerichte diagnostiek voor architecturen die denken en spreken ontkoppelen, en biedt een principiële manier om voortgang te meten naar real-time spraakassistenten die zowel vloeiend als betrouwbaar beredeneerd zijn.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for evaluating reasoning ability in voice-interactive systems under real-time conversational constraints. VERA comprises 2,931 voice-native episodes derived from established text benchmarks and organized into five tracks (Math, Web, Science, Long-Context, Factual). Each item is adapted for speech interaction while preserving reasoning difficulty. VERA enables direct text-voice comparison within model families and supports analysis of how architectural choices affect reliability. We assess 12 contemporary voice systems alongside strong text baselines and observe large, consistent modality gaps: on competition mathematics a leading text model attains 74.8% accuracy while its voice counterpart reaches 6.1%; macro-averaged across tracks the best text models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a low-latency plateau, where fast voice systems cluster around ~10% accuracy, while approaching text performance requires sacrificing real-time interaction. Diagnostic experiments indicate that common mitigations are insufficient. Increasing "thinking time" yields negligible gains; a decoupled cascade that separates reasoning from narration improves accuracy but still falls well short of text and introduces characteristic grounding/consistency errors. Failure analyses further show distinct error signatures across native streaming, end-to-end, and cascade designs. VERA provides a reproducible testbed and targeted diagnostics for architectures that decouple thinking from speaking, offering a principled way to measure progress toward real-time voice assistants that are both fluent and reliably reasoned.
PDF82October 1, 2025