Ver, Ouvir e Compreender: Avaliação da Compreensão Audiovisual da Fala Humana em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os modelos de linguagem multimodal de grande escala (MLLMs) são projetados para interpretar conjuntamente visão, áudio e linguagem, porém os benchmarks de vídeo existentes raramente avaliam o raciocínio refinado sobre a fala humana. Muitas tarefas permanecem solucionáveis visualmente ou apenas avaliam a fala de forma grosseira, oferecendo insights limitados sobre se os modelos conseguem alinhar quem fala, o que é dito e quando isso ocorre. Apresentamos o AV-SpeakerBench, um benchmark curado composto por 3.212 questões de múltipla escolha focadas no raciocínio audiovisual centrado no falante em vídeos do mundo real. Ele apresenta: (1) uma formulação centrada no falante que trata os falantes – e não as cenas – como a unidade central de raciocínio; (2) um design de questões baseado em fusão, incorporando dependências audiovisuais na semântica das perguntas; e (3) anotações curadas por especialistas, garantindo precisão temporal e validade cross-modal. Avaliações abrangentes mostram que a família Gemini supera consistentemente os sistemas de código aberto, com o Gemini 2.5 Pro alcançando os melhores resultados. Entre os modelos abertos, o Qwen3-Omni-30B se aproxima do Gemini 2.0 Flash, mas permanece muito atrás do Gemini 2.5 Pro, principalmente devido a uma fusão audiovisual mais fraca, e não à percepção visual. Acreditamos que o AV-SpeakerBench estabelece uma base rigorosa para o avanço do raciocínio audiovisual refinado em futuros sistemas multimodais.

English

Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.

Ver, Ouvir e Compreender: Avaliação da Compreensão Audiovisual da Fala Humana em Modelos de Linguagem Multimodais de Grande Escala

See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models

Resumo

Support