VoiceAssistant-Eval: Avaliando Assistentes de IA em Escuta, Fala e Visualização
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
Autores: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
Resumo
As capacidades crescentes dos modelos de linguagem de grande escala e sistemas multimodais têm despertado interesse em assistentes de IA com foco em voz, mas os benchmarks existentes são inadequados para avaliar a gama completa das capacidades desses sistemas. Apresentamos o VoiceAssistant-Eval, um benchmark abrangente projetado para avaliar assistentes de IA em escuta, fala e visualização. O VoiceAssistant-Eval compreende 10.497 exemplos cuidadosamente selecionados, abrangendo 13 categorias de tarefas. Essas tarefas incluem sons naturais, música e diálogos falados para escuta; diálogos multiturno, imitação de papéis e vários cenários para fala; e imagens altamente heterogêneas para visualização. Para demonstrar sua utilidade, avaliamos 21 modelos de código aberto e o GPT-4o-Audio, medindo a qualidade do conteúdo e da fala das respostas, bem como sua consistência. Os resultados revelam três descobertas principais: (1) modelos proprietários não superam universalmente os modelos de código aberto; (2) a maioria dos modelos se destaca em tarefas de fala, mas apresenta deficiências na compreensão de áudio; e (3) modelos menores bem projetados podem rivalizar com modelos muito maiores. Notavelmente, o Step-Audio-2-mini (7B), de tamanho médio, alcança mais que o dobro da precisão de escuta do LLaMA-Omni2-32B-Bilingual. No entanto, desafios permanecem: entradas multimodais (áudio mais visual) e tarefas de imitação de voz em papéis são difíceis para os modelos atuais, e lacunas significativas persistem em robustez e alinhamento de segurança. O VoiceAssistant-Eval identifica essas lacunas e estabelece uma estrutura rigorosa para avaliar e orientar o desenvolvimento da próxima geração de assistentes de IA. O código e os dados serão disponibilizados em https://mathllm.github.io/VoiceAssistantEval/.
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .