Évaluation vocale des capacités de raisonnement : Diagnostic de l'écart de performance induit par la modalité
Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
September 30, 2025
papers.authors: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI
papers.abstract
Nous présentons Voice Evaluation of Reasoning Ability (VERA), un benchmark pour évaluer la capacité de raisonnement des systèmes interactifs vocaux soumis aux contraintes de conversations en temps réel. VERA comprend 2 931 épisodes conçus spécifiquement pour la voix, dérivés de benchmarks textuels établis et organisés en cinq catégories (Mathématiques, Web, Science, Contexte Long, Faits). Chaque élément est adapté pour l'interaction vocale tout en préservant la difficulté de raisonnement. VERA permet une comparaison directe texte-voix au sein des familles de modèles et soutient l'analyse de l'impact des choix architecturaux sur la fiabilité. Nous évaluons 12 systèmes vocaux contemporains ainsi que des modèles textuels de référence, et observons des écarts modaux importants et cohérents : en mathématiques compétitives, un modèle textuel leader atteint 74,8 % de précision, tandis que sa version vocale atteint 6,1 % ; en moyenne macro sur les catégories, les meilleurs modèles textuels atteignent 54,0 % contre 11,3 % pour les modèles vocaux. Les analyses latence-précision révèlent un plateau de faible latence, où les systèmes vocaux rapides se regroupent autour de ~10 % de précision, tandis qu'approcher les performances textuelles nécessite de sacrifier l'interaction en temps réel. Les expériences diagnostiques indiquent que les atténuations courantes sont insuffisantes. Augmenter le "temps de réflexion" apporte des gains négligeables ; une cascade découplée qui sépare le raisonnement de la narration améliore la précision mais reste bien en deçà du texte et introduit des erreurs caractéristiques de cohérence/ancrage. Les analyses d'échecs montrent en outre des signatures d'erreurs distinctes selon les architectures de streaming natif, end-to-end et en cascade. VERA fournit un banc d'essai reproductible et des diagnostics ciblés pour les architectures qui découplent la pensée de la parole, offrant une méthode rigoureuse pour mesurer les progrès vers des assistants vocaux en temps réel à la fois fluides et fiables dans leur raisonnement.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for
evaluating reasoning ability in voice-interactive systems under real-time
conversational constraints. VERA comprises 2,931 voice-native episodes derived
from established text benchmarks and organized into five tracks (Math, Web,
Science, Long-Context, Factual). Each item is adapted for speech interaction
while preserving reasoning difficulty. VERA enables direct text-voice
comparison within model families and supports analysis of how architectural
choices affect reliability. We assess 12 contemporary voice systems alongside
strong text baselines and observe large, consistent modality gaps: on
competition mathematics a leading text model attains 74.8% accuracy while its
voice counterpart reaches 6.1%; macro-averaged across tracks the best text
models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a
low-latency plateau, where fast voice systems cluster around ~10% accuracy,
while approaching text performance requires sacrificing real-time interaction.
Diagnostic experiments indicate that common mitigations are insufficient.
Increasing "thinking time" yields negligible gains; a decoupled cascade that
separates reasoning from narration improves accuracy but still falls well short
of text and introduces characteristic grounding/consistency errors. Failure
analyses further show distinct error signatures across native streaming,
end-to-end, and cascade designs. VERA provides a reproducible testbed and
targeted diagnostics for architectures that decouple thinking from speaking,
offering a principled way to measure progress toward real-time voice assistants
that are both fluent and reliably reasoned.