보고, 듣고, 이해하기: 멀티모달 대규모 언어 모델의 시청각 인간 음성 이해 능력 벤치마킹
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
December 1, 2025
저자: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI
초록
다중 모달 대규모 언어 모델(MLLMs)은 시각, 청각, 언어 정보를 종합적으로 해석할 것으로 기대되지만, 기존의 비디오 벤치마크는 인간 음성에 대한 세밀한 추론 능력을 거의 평가하지 않습니다. 많은 과업이 시각 정보만으로 해결 가능하거나 음성을 대략적으로만 평가하여, 모델이 누가 말하는지, 무엇을 말하는지, 언제 발생하는지를 정확히 연관 짓는 능력을 파악하는 데 한계가 있습니다. 우리는 실제 세계 비디오에서 화자 중심의 시청각 추론에 초점을 맞춘 3,212개의 객관식 질문으로 구성된 AV-SpeakerBench 벤치마크를 소개합니다. 이 벤치마크의 특징은 다음과 같습니다: (1) 장면이 아닌 화자를 핵심 추론 단위로 삼는 화자 중심 구성; (2) 질문 의미에 시청각 의존성을 내재한 융합 기반 질문 설계; (3) 시간적 정밀성과 크로스 모달 타당성을 보장하는 전문가 기반 주석. 종합적 평가 결과, Gemini 패밀리가 오픈소스 시스템들을 꾸준히 능가했으며, Gemini 2.5 Pro가 가장 우수한 성적을 거두었습니다. 오픈 모델 중에서는 Qwen3-Omni-30B가 Gemini 2.0 Flash에 근접했지만 시각적 인식보다는 약한 시청각 융합 능력으로 인해 Gemini 2.5 Pro에는 크게 뒤처졌습니다. 우리는 AV-SpeakerBench가 향후 다중 모달 시스템의 세밀한 시청각 추론 발전을 위한 엄격한 기반을 마련했다고 믿습니다.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.