Vedere, Ascoltare e Comprendere: Benchmark della Comprensione Umana del Linguaggio Parlato Audiovisiva nei Modelli Linguistici Multimodali di Grandi Dimensioni
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
December 1, 2025
Autori: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) dovrebbero interpretare congiuntamente visione, audio e linguaggio, tuttavia i benchmark video esistenti raramente valutano il ragionamento di livello fine sul parlato umano. Molti compiti rimangono risolvibili visivamente o valutano il parlato solo in modo approssimativo, offrendo una comprensione limitata sulla capacità dei modelli di allineare chi parla, cosa viene detto e quando ciò avviene. Introduciamo AV-SpeakerBench, un benchmark curato di 3.212 domande a scelta multipla incentrate sul ragionamento audiovisivo centrato sul parlante in video del mondo reale. Esso presenta: (1) una formulazione centrata sul parlante che tratta i parlanti – non le scene – come unità di ragionamento fondamentale; (2) un design delle domande basato sulla fusione che incorpora le dipendenze audiovisive nella semantica della domanda; e (3) annotazioni curate da esperti che garantiscono precisione temporale e validità cross-modale. Valutazioni complete mostrano che la famiglia Gemini supera costantemente i sistemi open-source, con Gemini 2.5 Pro che ottiene i risultati migliori. Tra i modelli open, Qwen3-Omni-30B si avvicina a Gemini 2.0 Flash ma rimane molto indietro rispetto a Gemini 2.5 Pro, principalmente a causa di una fusione audiovisiva più debole piuttosto che di una percezione visiva inferiore. Riteniamo che AV-SpeakerBench stabilisca una base rigorosa per far progredire il ragionamento audiovisivo di livello fine nei futuri sistemi multimodali.
English
Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.