Sehen, Hören und Verstehen: Benchmarking audiovisuellen Sprachverständnisses in multimodalen Large Language Models
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
December 1, 2025
papers.authors: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI
papers.abstract
Multimodale große Sprachmodelle (MLLMs) sollen in der Lage sein, visuelle, auditive und sprachliche Informationen gemeinsam zu interpretieren, doch bestehende Video-Benchmarks bewerten selten feinkörnige Schlussfolgerungen über menschliche Sprache. Viele Aufgaben bleiben visuell lösbar oder bewerten Sprache nur grob, was nur begrenzte Einblicke bietet, ob Modelle in der Lage sind, Sprecheridentität, Sprachinhalt und Zeitpunkt des Gesprochenen in Einklang zu bringen. Wir stellen AV-SpeakerBench vor, einen kuratierten Benchmark mit 3.212 Multiple-Choice-Fragen, der sich auf sprecherzentriertes audiovisuelles Reasoning in realen Videos konzentriert. Er zeichnet sich durch folgende Merkmale aus: (1) eine sprecherzentrierte Formulierung, die Sprecher – nicht Szenen – als zentrale Reasoning-Einheit behandelt; (2) einen fusionsbasierten Fragenentwurf, der audiovisuelle Abhängigkeiten in die Fragesemantik einbettet; und (3) expertenkuratierte Annotationen, die zeitliche Präzision und crossmodale Validität sicherstellen. Umfassende Evaluierungen zeigen, dass die Gemini-Familie durchgängig besser abschneidet als Open-Source-Systeme, wobei Gemini 2.5 Pro die besten Ergebnisse erzielt. Unter den Open-Modellen nähert sich Qwen3-Omni-30B den Ergebnissen von Gemini 2.0 Flash an, bleibt jedoch weit hinter Gemini 2.5 Pro zurück, was hauptsächlich auf eine schwächere audiovisuelle Fusion und nicht auf eingeschränkte visuelle Wahrnehmung zurückzuführen ist. Wir sind der Überzeugung, dass AV-SpeakerBench eine rigorose Grundlage für die Weiterentwicklung feinkörnigen audiovisuellen Reasonings in zukünftigen multimodalen Systemen schafft.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.