VoiceAssistant-Eval : Évaluation comparative des assistants IA en matière d'écoute, de parole et de vision
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
papers.authors: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
papers.abstract
Les capacités croissantes des grands modèles de langage et des systèmes multimodaux ont suscité un intérêt accru pour les assistants IA axés sur la voix. Cependant, les benchmarks existants sont insuffisants pour évaluer l'étendue complète des capacités de ces systèmes. Nous présentons VoiceAssistant-Eval, un benchmark complet conçu pour évaluer les assistants IA à travers l'écoute, la parole et la vision. VoiceAssistant-Eval comprend 10 497 exemples soigneusement sélectionnés, couvrant 13 catégories de tâches. Ces tâches incluent des sons naturels, de la musique et des dialogues parlés pour l'écoute ; des dialogues multi-tours, des imitations de rôles et divers scénarios pour la parole ; ainsi que des images hautement hétérogènes pour la vision. Pour démontrer son utilité, nous évaluons 21 modèles open-source ainsi que GPT-4o-Audio, en mesurant la qualité du contenu des réponses, de la parole et leur cohérence. Les résultats révèlent trois conclusions clés : (1) les modèles propriétaires ne surpassent pas universellement les modèles open-source ; (2) la plupart des modèles excellent dans les tâches de parole mais sont à la traîne dans la compréhension audio ; et (3) des modèles plus petits mais bien conçus peuvent rivaliser avec des modèles beaucoup plus grands. Notamment, le modèle de taille moyenne Step-Audio-2-mini (7B) atteint plus du double de la précision d'écoute de LLaMA-Omni2-32B-Bilingual. Cependant, des défis subsistent : les entrées multimodales (audio plus visuel) et les tâches d'imitation vocale de rôles sont difficiles pour les modèles actuels, et des lacunes importantes persistent en matière de robustesse et d'alignement de sécurité. VoiceAssistant-Eval identifie ces lacunes et établit un cadre rigoureux pour évaluer et guider le développement des assistants IA de nouvelle génération. Le code et les données seront disponibles à l'adresse https://mathllm.github.io/VoiceAssistantEval/.
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .