VoiceAssistant-Eval: リスニング、スピーキング、ビューイングにおけるAIアシスタントのベンチマーキング
VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
September 26, 2025
著者: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li
cs.AI
要旨
大規模言語モデルとマルチモーダルシステムの能力向上に伴い、音声優先のAIアシスタントへの関心が高まっています。しかし、既存のベンチマークは、これらのシステムの全能力を評価するには不十分です。本論文では、AIアシスタントをリスニング、スピーキング、ビューイングの観点から評価する包括的なベンチマーク「VoiceAssistant-Eval」を紹介します。VoiceAssistant-Evalは、13のタスクカテゴリーにわたる10,497の精選された例を含んでいます。これらのタスクには、リスニングのための自然音、音楽、会話、スピーキングのための多段階対話、ロールプレイ模倣、様々なシナリオ、そしてビューイングのための高度に多様な画像が含まれます。その有用性を示すため、21のオープンソースモデルとGPT-4o-Audioを評価し、応答内容と音声の品質、およびそれらの一貫性を測定しました。結果から以下の3つの主要な知見が得られました:(1) プロプライエタリモデルが必ずしもオープンソースモデルを上回るわけではない、(2) ほとんどのモデルはスピーキングタスクで優れているが、音声理解では遅れをとっている、(3) 設計の優れた小型モデルがはるかに大規模なモデルに匹敵し得る。特に、中規模のStep-Audio-2-mini(7B)は、LLaMA-Omni2-32B-Bilingualのリスニング精度を2倍以上上回りました。しかし、課題も残されています:マルチモーダル(音声+視覚)入力とロールプレイ音声模倣タスクは現在のモデルにとって難しく、堅牢性と安全性の整合性においても大きなギャップが存在します。VoiceAssistant-Evalはこれらのギャップを特定し、次世代AIアシスタントの開発を評価・指導するための厳密なフレームワークを確立します。コードとデータはhttps://mathllm.github.io/VoiceAssistantEval/ で公開されます。
English
The growing capabilities of large language models and multimodal systems have
spurred interest in voice-first AI assistants, yet existing benchmarks are
inadequate for evaluating the full range of these systems' capabilities. We
introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI
assistants across listening, speaking, and viewing. VoiceAssistant-Eval
comprises 10,497 curated examples spanning 13 task categories. These tasks
include natural sounds, music, and spoken dialogue for listening; multi-turn
dialogue, role-play imitation, and various scenarios for speaking; and highly
heterogeneous images for viewing. To demonstrate its utility, we evaluate 21
open-source models and GPT-4o-Audio, measuring the quality of the response
content and speech, as well as their consistency. The results reveal three key
findings: (1) proprietary models do not universally outperform open-source
models; (2) most models excel at speaking tasks but lag in audio understanding;
and (3) well-designed smaller models can rival much larger ones. Notably, the
mid-sized Step-Audio-2-mini (7B) achieves more than double the listening
accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal
(audio plus visual) input and role-play voice imitation tasks are difficult for
current models, and significant gaps persist in robustness and safety
alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous
framework for evaluating and guiding the development of next-generation AI
assistants. Code and data will be released at
https://mathllm.github.io/VoiceAssistantEval/ .