Stimmliche Bewertung der Argumentationsfähigkeit: Diagnose der modalitätsbedingten Leistungslücke
Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
September 30, 2025
papers.authors: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI
papers.abstract
Wir präsentieren Voice Evaluation of Reasoning Ability (VERA), einen Benchmark zur Bewertung der Fähigkeit zur logischen Schlussfolgerung in sprachgesteuerten Systemen unter Echtzeit-Konversationsbedingungen. VERA umfasst 2.931 sprachorientierte Episoden, die aus etablierten Text-Benchmarks abgeleitet und in fünf Kategorien (Mathematik, Web, Wissenschaft, Langkontext, Faktenwissen) organisiert sind. Jeder Eintrag wurde für die Sprachinteraktion angepasst, wobei die Schwierigkeit der logischen Schlussfolgerung erhalten bleibt. VERA ermöglicht einen direkten Text-Sprache-Vergleich innerhalb von Modellfamilien und unterstützt die Analyse, wie architektonische Entscheidungen die Zuverlässigkeit beeinflussen. Wir bewerten 12 zeitgenössische Sprachsysteme neben starken Text-Baselines und beobachten große, konsistente Modalitätsunterschiede: Bei Wettbewerbsmathematik erreicht ein führendes Textmodell eine Genauigkeit von 74,8 %, während das entsprechende Sprachmodell nur 6,1 % erreicht; makroskopisch über alle Kategorien hinweg erzielen die besten Textmodelle 54,0 % im Vergleich zu 11,3 % für Sprachmodelle. Latenz-Genauigkeits-Analysen zeigen ein Niedriglatenz-Plateau, auf dem schnelle Sprachsysteme bei etwa 10 % Genauigkeit liegen, während die Annäherung an die Textleistung den Verzicht auf Echtzeitinteraktion erfordert. Diagnostische Experimente deuten darauf hin, dass gängige Gegenmaßnahmen unzureichend sind. Eine Verlängerung der „Denkzeit“ bringt nur geringfügige Verbesserungen; eine entkoppelte Kaskade, die das logische Schlussfolgern von der Sprachausgabe trennt, verbessert die Genauigkeit, bleibt jedoch deutlich hinter der Textleistung zurück und führt zu charakteristischen Fehlern in Bezug auf Verankerung und Konsistenz. Fehleranalysen zeigen zudem unterschiedliche Fehlermuster bei nativen Streaming-, End-to-End- und Kaskaden-Designs. VERA bietet eine reproduzierbare Testumgebung und gezielte Diagnostik für Architekturen, die Denken und Sprechen entkoppeln, und bietet einen prinzipiellen Ansatz, um Fortschritte hin zu Echtzeit-Sprachassistenten zu messen, die sowohl flüssig als auch zuverlässig schlussfolgern.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for
evaluating reasoning ability in voice-interactive systems under real-time
conversational constraints. VERA comprises 2,931 voice-native episodes derived
from established text benchmarks and organized into five tracks (Math, Web,
Science, Long-Context, Factual). Each item is adapted for speech interaction
while preserving reasoning difficulty. VERA enables direct text-voice
comparison within model families and supports analysis of how architectural
choices affect reliability. We assess 12 contemporary voice systems alongside
strong text baselines and observe large, consistent modality gaps: on
competition mathematics a leading text model attains 74.8% accuracy while its
voice counterpart reaches 6.1%; macro-averaged across tracks the best text
models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a
low-latency plateau, where fast voice systems cluster around ~10% accuracy,
while approaching text performance requires sacrificing real-time interaction.
Diagnostic experiments indicate that common mitigations are insufficient.
Increasing "thinking time" yields negligible gains; a decoupled cascade that
separates reasoning from narration improves accuracy but still falls well short
of text and introduces characteristic grounding/consistency errors. Failure
analyses further show distinct error signatures across native streaming,
end-to-end, and cascade designs. VERA provides a reproducible testbed and
targeted diagnostics for architectures that decouple thinking from speaking,
offering a principled way to measure progress toward real-time voice assistants
that are both fluent and reliably reasoned.