VoiceAssistant-Eval : Évaluation comparative des assistants IA en matière d'écoute, de parole et de vision

papers.abstract

Les capacités croissantes des grands modèles de langage et des systèmes multimodaux ont suscité un intérêt accru pour les assistants IA axés sur la voix. Cependant, les benchmarks existants sont insuffisants pour évaluer l'étendue complète des capacités de ces systèmes. Nous présentons VoiceAssistant-Eval, un benchmark complet conçu pour évaluer les assistants IA à travers l'écoute, la parole et la vision. VoiceAssistant-Eval comprend 10 497 exemples soigneusement sélectionnés, couvrant 13 catégories de tâches. Ces tâches incluent des sons naturels, de la musique et des dialogues parlés pour l'écoute ; des dialogues multi-tours, des imitations de rôles et divers scénarios pour la parole ; ainsi que des images hautement hétérogènes pour la vision. Pour démontrer son utilité, nous évaluons 21 modèles open-source ainsi que GPT-4o-Audio, en mesurant la qualité du contenu des réponses, de la parole et leur cohérence. Les résultats révèlent trois conclusions clés : (1) les modèles propriétaires ne surpassent pas universellement les modèles open-source ; (2) la plupart des modèles excellent dans les tâches de parole mais sont à la traîne dans la compréhension audio ; et (3) des modèles plus petits mais bien conçus peuvent rivaliser avec des modèles beaucoup plus grands. Notamment, le modèle de taille moyenne Step-Audio-2-mini (7B) atteint plus du double de la précision d'écoute de LLaMA-Omni2-32B-Bilingual. Cependant, des défis subsistent : les entrées multimodales (audio plus visuel) et les tâches d'imitation vocale de rôles sont difficiles pour les modèles actuels, et des lacunes importantes persistent en matière de robustesse et d'alignement de sécurité. VoiceAssistant-Eval identifie ces lacunes et établit un cadre rigoureux pour évaluer et guider le développement des assistants IA de nouvelle génération. Le code et les données seront disponibles à l'adresse https://mathllm.github.io/VoiceAssistantEval/.

English

The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems' capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dialogue for listening; multi-turn dialogue, role-play imitation, and various scenarios for speaking; and highly heterogeneous images for viewing. To demonstrate its utility, we evaluate 21 open-source models and GPT-4o-Audio, measuring the quality of the response content and speech, as well as their consistency. The results reveal three key findings: (1) proprietary models do not universally outperform open-source models; (2) most models excel at speaking tasks but lag in audio understanding; and (3) well-designed smaller models can rival much larger ones. Notably, the mid-sized Step-Audio-2-mini (7B) achieves more than double the listening accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal (audio plus visual) input and role-play voice imitation tasks are difficult for current models, and significant gaps persist in robustness and safety alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous framework for evaluating and guiding the development of next-generation AI assistants. Code and data will be released at https://mathllm.github.io/VoiceAssistantEval/ .

VoiceAssistant-Eval : Évaluation comparative des assistants IA en matière d'écoute, de parole et de vision

VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

papers.abstract

Support