Zien, horen en begrijpen: het benchmarken van audiovisueel menselijk spraakbegrip in multimodale grote taalmodellen
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
December 1, 2025
Auteurs: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI
Samenvatting
Multimodale grote-taalmmodellen (MLLM's) worden geacht visie, audio en taal gezamenlijk te interpreteren, maar bestaande videobenchmarks evalueren zelden fijnmazige redenering over menselijke spraak. Veel taken blijven visueel oplosbaar of evalueren spraak slechts in grove lijnen, wat beperkt inzicht biedt in of modellen kunnen bepalen wie spreekt, wat er wordt gezegd en wanneer dit plaatsvindt. Wij introduceren AV-SpeakerBench, een gecureerde benchmark van 3.212 multiplechoicevragen gericht op sprekergecentreerde audiovisuele redenering in real-world video's. Deze kenmerkt zich door: (1) een sprekergecentreerde formulering die sprekers – niet scènes – als kernredeneereenheid behandelt; (2) fusie-gebaseerd vraagontwerp dat audiovisuele afhankelijkheden in de vraag semantiek inbedt; en (3) expert-gecureerde annotaties die temporele precisie en cross-modale validiteit waarborgen. Uitgebreide evaluaties tonen aan dat de Gemini-familie consistent beter presteert dan open-source systemen, waarbij Gemini 2.5 Pro de beste resultaten behaalt. Onder open modellen benadert Qwen3-Omni-30B de prestaties van Gemini 2.0 Flash, maar blijft het ver achter bij Gemini 2.5 Pro, voornamelijk door zwakkere audiovisuele fusie in plaats van visuele perceptie. Wij zijn van mening dat AV-SpeakerBench een rigoureuze basis legt voor de vooruitgang van fijnmazige audiovisuele redenering in toekomstige multimodale systemen.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.