VoiceAssistant-Eval: Оценка ИИ-ассистентов по параметрам слушания, говорения и визуального восприятия
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
Авторы: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
Аннотация
Растущие возможности крупных языковых моделей и мультимодальных систем стимулируют интерес к голосовым AI-ассистентам, однако существующие бенчмарки недостаточны для оценки полного спектра возможностей этих систем. Мы представляем VoiceAssistant-Eval — всеобъемлющий бенчмарк, разработанный для оценки AI-ассистентов по аспектам слушания, говорения и визуального восприятия. VoiceAssistant-Eval включает 10 497 тщательно отобранных примеров, охватывающих 13 категорий задач. Эти задачи включают естественные звуки, музыку и устный диалог для слушания; многоходовые диалоги, имитацию ролевых игр и различные сценарии для говорения; а также высоко гетерогенные изображения для визуального восприятия. Чтобы продемонстрировать его полезность, мы оцениваем 21 модель с открытым исходным кодом и GPT-4o-Audio, измеряя качество содержания и речи ответов, а также их согласованность. Результаты выявляют три ключевых вывода: (1) проприетарные модели не всегда превосходят модели с открытым исходным кодом; (2) большинство моделей хорошо справляются с задачами говорения, но отстают в понимании аудио; (3) хорошо спроектированные модели меньшего размера могут конкурировать с гораздо более крупными. Примечательно, что модель среднего размера Step-Audio-2-mini (7B) достигает более чем двукратной точности в задачах слушания по сравнению с LLaMA-Omni2-32B-Bilingual. Однако остаются вызовы: мультимодальные (аудио и визуальные) входные данные и задачи имитации голоса в ролевых играх сложны для современных моделей, а значительные пробелы сохраняются в устойчивости и безопасности. VoiceAssistant-Eval выявляет эти пробелы и устанавливает строгую основу для оценки и направления разработки AI-ассистентов следующего поколения. Код и данные будут опубликованы на https://mathllm.github.io/VoiceAssistantEval/.
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .