Voir, Entendre et Comprendre : Évaluation de la Compréhension Audiovisuelle de la Parole Humaine par les Modèles Linguistiques Multimodaux de Grande Taille
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
December 1, 2025
papers.authors: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI
papers.abstract
Les modèles linguistiques multimodaux (MLLM) sont censés interpréter conjointement la vision, l'audio et le langage, pourtant les benchmarks vidéo existants évaluent rarement le raisonnement fin sur la parole humaine. De nombreuses tâches restent résolubles visuellement ou n'évaluent la parole que de manière grossière, offrant peu d'indications sur la capacité des modèles à aligner qui parle, ce qui est dit et quand cela se produit. Nous présentons AV-SpeakerBench, un benchmark composé de 3 212 questions à choix multiples axées sur le raisonnement audiovisuel centré sur l'orateur dans des vidéos du monde réel. Il se caractérise par : (1) une formulation centrée sur l'orateur qui traite les locuteurs – et non les scènes – comme unité de raisonnement centrale ; (2) une conception de questions ancrée dans la fusion, intégrant les dépendances audiovisuelles dans la sémantique des questions ; et (3) des annotations expertes garantissant la précision temporelle et la validité intermodale. Des évaluations complètes montrent que la famille Gemini surpasse systématiquement les systèmes open-source, Gemini 2.5 Pro obtenant les meilleurs résultats. Parmi les modèles open source, Qwen3-Omni-30B approche les performances de Gemini 2.0 Flash mais reste loin derrière Gemini 2.5 Pro, principalement en raison d'une fusion audiovisuelle plus faible plutôt que d'une perception visuelle déficiente. Nous pensons qu'AV-SpeakerBench établit une base rigoureuse pour faire progresser le raisonnement audiovisuel fin dans les futurs systèmes multimodaux.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.