ChatPaper.aiChatPaper

見て、聞いて、理解する:マルチモーダル大規模言語モデルにおける視聴覚音声理解のベンチマーキング

See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

December 1, 2025
著者: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、視覚・聴覚・言語情報を統合的に解釈することが期待されているが、既存の動画ベンチマークでは人間の音声に関する細粒度の推論能力を十分に評価していない。多くのタスクは視覚情報のみで解決可能か、音声を粗く評価するに留まり、モデルが「誰が」「何を」「いつ」発話したかを正確に紐付けられるかどうかの知見が限られていた。本研究では、実世界の動画における話者中心の視聴覚推論に焦点を当てた3,212問の選択式問題から構成されるAV-SpeakerBenchを提案する。本ベンチマークの特徴は以下の通りである:(1)シーンではなく話者を推論の基本単位とする話者中心の定式化、(2)質問の意味構造に視聴覚の依存関係を組み込んだ融合基盤型質問設計、(3)時間的精度とクロスモーダル妥当性を保証する専門家による注釈。包括的評価の結果、Geminiファミリーがオープンソースシステムを一貫して上回り、Gemini 2.5 Proが最高性能を示した。オープンモデルではQwen3-Omni-30BがGemini 2.0 Flashに接近したが、主に視聴覚融合能力の弱さによりGemini 2.5 Proには大きく遅れを取った。AV-SpeakerBenchは、将来のマルチモーダルシステムにおける細粒度視聴覚推論の発展に堅固な基盤を提供すると考えられる。
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.
PDF72December 11, 2025