VoiceAssistant-Eval: Valutazione degli Assistenti Vocali nelle Dimensioni di Ascolto, Parlato e Visualizzazione
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
Autori: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
Abstract
Le crescenti capacità dei modelli linguistici di grandi dimensioni e dei sistemi multimodali hanno stimolato l'interesse verso gli assistenti vocali AI, ma i benchmark esistenti si rivelano inadeguati per valutare l'intera gamma di capacità di questi sistemi. Introduciamo VoiceAssistant-Eval, un benchmark completo progettato per valutare gli assistenti AI attraverso l'ascolto, la conversazione e la visualizzazione. VoiceAssistant-Eval comprende 10.497 esempi curati, suddivisi in 13 categorie di task. Questi task includono suoni naturali, musica e dialoghi parlati per l'ascolto; dialoghi multi-turn, imitazione di ruoli e vari scenari per la conversazione; e immagini altamente eterogenee per la visualizzazione. Per dimostrarne l'utilità, valutiamo 21 modelli open-source e GPT-4o-Audio, misurando la qualità del contenuto e del parlato delle risposte, nonché la loro coerenza. I risultati rivelano tre principali osservazioni: (1) i modelli proprietari non superano universalmente quelli open-source; (2) la maggior parte dei modelli eccelle nei task di conversazione ma è carente nella comprensione audio; e (3) modelli più piccoli ma ben progettati possono competere con modelli molto più grandi. In particolare, il modello di medie dimensioni Step-Audio-2-mini (7B) raggiunge più del doppio dell'accuratezza nell'ascolto rispetto a LLaMA-Omni2-32B-Bilingual. Tuttavia, permangono delle sfide: l'input multimodale (audio più visivo) e i task di imitazione vocale di ruoli risultano difficili per i modelli attuali, e persistono significativi gap nella robustezza e nell'allineamento alla sicurezza. VoiceAssistant-Eval identifica questi gap e stabilisce un framework rigoroso per valutare e guidare lo sviluppo delle prossime generazioni di assistenti AI. Codice e dati saranno rilasciati su https://mathllm.github.io/VoiceAssistantEval/.
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .