Видеть, слышать и понимать: оценка аудиовизуального восприятия человеческой речи в мультимодальных больших языковых моделях
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
December 1, 2025
Авторы: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI
Аннотация
Мультимодальные большие языковые модели (MБЯМ) должны совместно интерпретировать визуальную информацию, аудио и язык, однако существующие видео-бенчмарки редко оценивают детализированные рассуждения о человеческой речи. Многие задачи остаются решаемыми на основе визуальных данных или лишь грубо оценивают речь, что даёт ограниченное представление о способности моделей соотносить того, кто говорит, что сказано и когда это происходит. Мы представляем AV-SpeakerBench — тщательно отобранный бенчмарк из 3212 вопросов с множественным выбором, сфокусированный на спикер-центричном аудиовизуальном анализе в реальных видео. Его особенности: (1) спикер-ориентированная формулировка, где основным объектом анализа являются говорящие, а не сцены; (2) дизайн вопросов, основанный на слиянии модальностей, встраивающий аудиовизуальные зависимости в семантику вопросов; и (3) экспертные аннотации, обеспечивающие временную точность и кросс-модальную достоверность. Комплексные оценки показывают, что семейство моделей Gemini стабильно превосходит открытые системы, причём Gemini 2.5 Pro демонстрирует наилучшие результаты. Среди открытых моделей Qwen3-Omni-30B приближается к Gemini 2.0 Flash, но значительно уступает Gemini 2.5 Pro, в основном из-за более слабого аудиовизуального слияния, а не визуального восприятия. Мы считаем, что AV-SpeakerBench закладывает строгую основу для развития детализированного аудиовизуального анализа в будущих мультимодальных системах.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.