VoiceAssistant-Eval: 듣기, 말하기, 보기 영역에서 AI 어시스턴트 벤치마킹
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
저자: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
초록
대규모 언어 모델과 멀티모달 시스템의 성능이 점점 향상되면서 음성 중심 AI 어시스턴트에 대한 관심이 높아지고 있지만, 기존 벤치마크는 이러한 시스템의 전체 역량을 평가하기에는 부족합니다. 우리는 듣기, 말하기, 보기 영역을 포괄적으로 평가하기 위해 설계된 종합 벤치마크인 VoiceAssistant-Eval을 소개합니다. VoiceAssistant-Eval은 13개 작업 범주에 걸쳐 10,497개의 정제된 예제로 구성되어 있습니다. 이러한 작업에는 듣기를 위한 자연 소리, 음악, 구어 대화; 말하기를 위한 다중 턴 대화, 역할극 모방, 다양한 시나리오; 그리고 보기를 위한 매우 이질적인 이미지가 포함됩니다. 이 벤치마크의 유용성을 입증하기 위해 21개의 오픈소스 모델과 GPT-4o-Audio를 평가하여 응답 내용과 음성의 품질, 그리고 일관성을 측정했습니다. 결과는 세 가지 주요 발견을 보여줍니다: (1) 독점 모델이 항상 오픈소스 모델을 능가하는 것은 아니다; (2) 대부분의 모델은 말하기 작업에서 뛰어나지만 오디오 이해에서는 뒤처진다; (3) 잘 설계된 소규모 모델이 훨씬 더 큰 모델과 경쟁할 수 있다. 특히 중간 규모의 Step-Audio-2-mini(7B)는 LLaMA-Omni2-32B-Bilingual의 듣기 정확도의 두 배 이상을 달성했습니다. 그러나 여전히 해결해야 할 과제가 남아 있습니다: 멀티모달(오디오와 시각) 입력과 역할극 음성 모방 작업은 현재 모델들에게 어려운 과제이며, 견고성과 안전성 정렬에서도 상당한 격차가 존재합니다. VoiceAssistant-Eval은 이러한 격차를 식별하고 차세대 AI 어시스턴트의 개발을 평가하고 안내하기 위한 엄격한 프레임워크를 마련합니다. 코드와 데이터는 https://mathllm.github.io/VoiceAssistantEval/에서 공개될 예정입니다.
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .