ChatPaper.aiChatPaper

Оценка способности к рассуждению через голос: диагностика разрыва в производительности, вызванного модальностью

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

September 30, 2025
Авторы: Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen
cs.AI

Аннотация

Мы представляем Voice Evaluation of Reasoning Ability (VERA) — эталонный набор данных для оценки способности к рассуждению в голосовых интерактивных системах в условиях реального времени и ограничений диалога. VERA включает 2,931 эпизода, адаптированных для голосового взаимодействия на основе существующих текстовых эталонов и организованных в пять направлений (Математика, Интернет, Наука, Длинный контекст, Факты). Каждый элемент адаптирован для речевого взаимодействия с сохранением сложности рассуждений. VERA позволяет проводить прямое сравнение текстовых и голосовых моделей внутри семейств и поддерживает анализ влияния архитектурных решений на надежность. Мы оценили 12 современных голосовых систем наряду с сильными текстовыми базовыми моделями и наблюдали значительные и устойчивые различия между модальностями: в соревновательной математике ведущая текстовая модель достигает точности 74,8%, тогда как ее голосовой аналог — всего 6,1%; в среднем по всем направлениям лучшие текстовые модели показывают точность 54,0% против 11,3% у голосовых. Анализ задержки и точности выявляет плато низкой задержки, где быстрые голосовые системы группируются вокруг ~10% точности, в то время как приближение к текстовой производительности требует жертвовать реальным временем взаимодействия. Диагностические эксперименты показывают, что распространенные методы улучшения недостаточны. Увеличение "времени на размышление" дает незначительный прирост; каскадная архитектура, разделяющая рассуждение и озвучивание, улучшает точность, но все же значительно уступает текстовым моделям и вносит характерные ошибки согласованности и закрепления. Анализ ошибок также выявляет различные паттерны сбоев у нативных потоковых, сквозных и каскадных архитектур. VERA предоставляет воспроизводимую тестовую среду и целенаправленную диагностику для архитектур, разделяющих мышление и речь, предлагая принципиальный способ измерения прогресса в создании голосовых ассистентов, которые одновременно беглы и надежны в рассуждениях.
English
We present Voice Evaluation of Reasoning Ability (VERA), a benchmark for evaluating reasoning ability in voice-interactive systems under real-time conversational constraints. VERA comprises 2,931 voice-native episodes derived from established text benchmarks and organized into five tracks (Math, Web, Science, Long-Context, Factual). Each item is adapted for speech interaction while preserving reasoning difficulty. VERA enables direct text-voice comparison within model families and supports analysis of how architectural choices affect reliability. We assess 12 contemporary voice systems alongside strong text baselines and observe large, consistent modality gaps: on competition mathematics a leading text model attains 74.8% accuracy while its voice counterpart reaches 6.1%; macro-averaged across tracks the best text models achieve 54.0% versus 11.3% for voice. Latency-accuracy analyses reveal a low-latency plateau, where fast voice systems cluster around ~10% accuracy, while approaching text performance requires sacrificing real-time interaction. Diagnostic experiments indicate that common mitigations are insufficient. Increasing "thinking time" yields negligible gains; a decoupled cascade that separates reasoning from narration improves accuracy but still falls well short of text and introduces characteristic grounding/consistency errors. Failure analyses further show distinct error signatures across native streaming, end-to-end, and cascade designs. VERA provides a reproducible testbed and targeted diagnostics for architectures that decouple thinking from speaking, offering a principled way to measure progress toward real-time voice assistants that are both fluent and reliably reasoned.
PDF11October 1, 2025