ChatPaper.aiChatPaper

VoiceAssistant-Eval: Het benchmarken van AI-assistenten op het gebied van luisteren, spreken en kijken.

VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

September 26, 2025
Auteurs: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI

Samenvatting

De toenemende mogelijkheden van grote taalmodellen en multimodale systemen hebben de interesse gewekt in voice-first AI-assistenten, maar bestaande benchmarks zijn ontoereikend om het volledige scala aan mogelijkheden van deze systemen te evalueren. Wij introduceren VoiceAssistant-Eval, een uitgebreide benchmark die is ontworpen om AI-assistenten te beoordelen op luisteren, spreken en kijken. VoiceAssistant-Eval bestaat uit 10.497 zorgvuldig samengestelde voorbeelden, verdeeld over 13 taakcategorieën. Deze taken omvatten natuurlijke geluiden, muziek en gesproken dialoog voor luisteren; meerzijdige dialoog, rollenspelimitatie en diverse scenario's voor spreken; en zeer heterogene afbeeldingen voor kijken. Om de bruikbaarheid aan te tonen, evalueren we 21 open-source modellen en GPT-4o-Audio, waarbij we de kwaliteit van de reactie-inhoud en spraak meten, evenals hun consistentie. De resultaten onthullen drie belangrijke bevindingen: (1) propriëtaire modellen presteren niet universeel beter dan open-source modellen; (2) de meeste modellen blinken uit in spreektaken maar blijven achter in audiobegrip; en (3) goed ontworpen kleinere modellen kunnen concurreren met veel grotere modellen. Opmerkelijk is dat het middelgrote Step-Audio-2-mini (7B) meer dan het dubbele luisternauwkeurigheid behaalt vergeleken met LLaMA-Omni2-32B-Bilingual. Er blijven echter uitdagingen bestaan: multimodale (audio plus visuele) invoer en rollenspelstemimitatie taken zijn moeilijk voor huidige modellen, en er blijven aanzienlijke hiaten bestaan in robuustheid en veiligheidsafstemming. VoiceAssistant-Eval identificeert deze hiaten en stelt een rigoureus kader vast voor het evalueren en begeleiden van de ontwikkeling van next-generation AI-assistenten. Code en data zullen worden vrijgegeven op https://mathllm.github.io/VoiceAssistantEval/.
English
The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems' capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dialogue for listening; multi-turn dialogue, role-play imitation, and various scenarios for speaking; and highly heterogeneous images for viewing. To demonstrate its utility, we evaluate 21 open-source models and GPT-4o-Audio, measuring the quality of the response content and speech, as well as their consistency. The results reveal three key findings: (1) proprietary models do not universally outperform open-source models; (2) most models excel at speaking tasks but lag in audio understanding; and (3) well-designed smaller models can rival much larger ones. Notably, the mid-sized Step-Audio-2-mini (7B) achieves more than double the listening accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal (audio plus visual) input and role-play voice imitation tasks are difficult for current models, and significant gaps persist in robustness and safety alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous framework for evaluating and guiding the development of next-generation AI assistants. Code and data will be released at https://mathllm.github.io/VoiceAssistantEval/ .
PDF222September 29, 2025