Evaluación de la Capacidad de Razonamiento mediante Voz: Diagnóstico de la Brecha de Rendimiento Inducida por la Modalidad
Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap
September 30, 2025
Autores: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI
Resumen
Presentamos Voice Evaluation of Reasoning Ability (VERA), un punto de referencia para evaluar la capacidad de razonamiento en sistemas interactivos de voz bajo las restricciones de conversación en tiempo real. VERA comprende 2,931 episodios nativos de voz derivados de puntos de referencia de texto establecidos y organizados en cinco categorías (Matemáticas, Web, Ciencia, Contexto Largo, Hechos). Cada ítem está adaptado para la interacción por voz mientras se preserva la dificultad de razonamiento. VERA permite una comparación directa entre texto y voz dentro de familias de modelos y apoya el análisis de cómo las elecciones arquitectónicas afectan la confiabilidad. Evaluamos 12 sistemas de voz contemporáneos junto con sólidas líneas base de texto y observamos brechas de modalidad grandes y consistentes: en matemáticas competitivas, un modelo líder de texto alcanza un 74.8% de precisión, mientras que su contraparte de voz llega al 6.1%; promediado macro a través de las categorías, los mejores modelos de texto logran un 54.0% frente a un 11.3% para los de voz. Los análisis de latencia-precisión revelan una meseta de baja latencia, donde los sistemas de voz rápidos se agrupan alrededor de un ~10% de precisión, mientras que acercarse al rendimiento de texto requiere sacrificar la interacción en tiempo real. Los experimentos diagnósticos indican que las mitigaciones comunes son insuficientes. Aumentar el "tiempo de pensamiento" produce ganancias insignificantes; una cascada desacoplada que separa el razonamiento de la narración mejora la precisión, pero aún queda muy por debajo del texto e introduce errores característicos de anclaje/consistencia. Los análisis de fallas muestran además firmas de error distintas entre diseños de transmisión nativa, de extremo a extremo y en cascada. VERA proporciona un banco de pruebas reproducible y diagnósticos específicos para arquitecturas que desacoplan el pensamiento del habla, ofreciendo una forma fundamentada de medir el progreso hacia asistentes de voz en tiempo real que sean tanto fluidos como razonados de manera confiable.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for
evaluating reasoning ability in voice-interactive systems under real-time
conversational constraints. VERA comprises 2,931 voice-native episodes derived
from established text benchmarks and organized into five tracks (Math, Web,
Science, Long-Context, Factual). Each item is adapted for speech interaction
while preserving reasoning difficulty. VERA enables direct text-voice
comparison within model families and supports analysis of how architectural
choices affect reliability. We assess 12 contemporary voice systems alongside
strong text baselines and observe large, consistent modality gaps: on
competition mathematics a leading text model attains 74.8% accuracy while its
voice counterpart reaches 6.1%; macro-averaged across tracks the best text
models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a
low-latency plateau, where fast voice systems cluster around ~10% accuracy,
while approaching text performance requires sacrificing real-time interaction.
Diagnostic experiments indicate that common mitigations are insufficient.
Increasing "thinking time" yields negligible gains; a decoupled cascade that
separates reasoning from narration improves accuracy but still falls well short
of text and introduces characteristic grounding/consistency errors. Failure
analyses further show distinct error signatures across native streaming,
end-to-end, and cascade designs. VERA provides a reproducible testbed and
targeted diagnostics for architectures that decouple thinking from speaking,
offering a principled way to measure progress toward real-time voice assistants
that are both fluent and reliably reasoned.