ChatPaper.aiChatPaper

Ver, Oír y Comprender: Evaluación de la Comprensión Audiovisual del Habla Humana en Modelos de Lenguaje Grandes Multimodales

See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

December 1, 2025
Autores: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI

Resumen

Se espera que los modelos de lenguaje multimodal (MLLM) interpreten conjuntamente la visión, el audio y el lenguaje; sin embargo, los puntos de referencia existentes para video rara vez evalúan el razonamiento detallado sobre el habla humana. Muchas tareas siguen siendo resolubles visualmente o solo evalúan el habla de manera superficial, ofreciendo una perspectiva limitada sobre si los modelos pueden alinear quién habla, qué se dice y cuándo ocurre. Presentamos AV-SpeakerBench, un punto de referencia curado de 3.212 preguntas de opción múltiple centradas en el razonamiento audiovisual centrado en el hablante en videos del mundo real. Sus características son: (1) una formulación centrada en el hablante que trata a los hablantes —no a las escenas— como la unidad central de razonamiento; (2) un diseño de preguntas basado en fusión que integra dependencias audiovisuales en la semántica de la pregunta; y (3) anotaciones curadas por expertos que garantizan precisión temporal y validez multimodal. Evaluaciones exhaustivas muestran que la familia Gemini supera consistentemente a los sistemas de código abierto, con Gemini 2.5 Pro logrando los mejores resultados. Entre los modelos abiertos, Qwen3-Omni-30B se acerca a Gemini 2.0 Flash pero se mantiene muy por detrás de Gemini 2.5 Pro, principalmente debido a una fusión audiovisual más débil y no a una percepción visual inferior. Creemos que AV-SpeakerBench establece una base rigurosa para avanzar en el razonamiento audiovisual de grano fino en futuros sistemas multimodales.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.
PDF72December 11, 2025