VoiceAssistant-Eval: Benchmarking von KI-Assistenten in den Bereichen Hören, Sprechen und Sehen
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
papers.authors: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
papers.abstract
Die wachsenden Fähigkeiten großer Sprachmodelle und multimodaler Systeme haben das Interesse an sprachgesteuerten KI-Assistenten geweckt, doch die bestehenden Benchmarks sind unzureichend, um das gesamte Spektrum der Fähigkeiten dieser Systeme zu bewerten. Wir stellen VoiceAssistant-Eval vor, einen umfassenden Benchmark, der entwickelt wurde, um KI-Assistenten in den Bereichen Hören, Sprechen und Sehen zu bewerten. VoiceAssistant-Eval umfasst 10.497 sorgfältig ausgewählte Beispiele, die 13 Aufgabenkategorien abdecken. Diese Aufgaben beinhalten natürliche Geräusche, Musik und gesprochene Dialoge für das Hören; mehrschrittige Dialoge, Rollenspiel-Nachahmung und verschiedene Szenarien für das Sprechen; sowie hochgradig heterogene Bilder für das Sehen. Um seinen Nutzen zu demonstrieren, bewerten wir 21 Open-Source-Modelle und GPT-4o-Audio, wobei wir die Qualität der Antwortinhalte und der Sprache sowie deren Konsistenz messen. Die Ergebnisse zeigen drei zentrale Erkenntnisse: (1) proprietäre Modelle übertreffen Open-Source-Modelle nicht durchgängig; (2) die meisten Modelle glänzen bei Sprechaufgaben, liegen aber beim Audioverständnis zurück; und (3) gut konzipierte kleinere Modelle können mit viel größeren Modellen mithalten. Bemerkenswerterweise erreicht das mittelgroße Step-Audio-2-mini (7B) mehr als die doppelte Hörgenauigkeit von LLaMA-Omni2-32B-Bilingual. Dennoch bestehen weiterhin Herausforderungen: multimodale (Audio plus visuelle) Eingaben und Rollenspiel-Stimmennachahmungsaufgaben sind für aktuelle Modelle schwierig, und es gibt erhebliche Lücken in Bezug auf Robustheit und Sicherheitsausrichtung. VoiceAssistant-Eval identifiziert diese Lücken und schafft einen rigorosen Rahmen für die Bewertung und Weiterentwicklung von KI-Assistenten der nächsten Generation. Code und Daten werden unter https://mathllm.github.io/VoiceAssistantEval/ veröffentlicht.
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .