Quando a Visão Fala pelo Som

Resumo

Apesar do rápido progresso dos MLLMs capazes de processar vídeo, descobrimos que sua aparente compreensão de áudio em vídeos é frequentemente impulsionada pela visão: os modelos dependem de pistas visuais para inferir ou alucinar informações acústicas, em vez de verificar o fluxo de áudio. Esse problema se manifesta tanto em modelos omni de última geração com código aberto quanto nos principais modelos de código fechado de provedores como Google e OpenAI. Caracterizamos esse modo de falha como um efeito Clever Hans audiovisual, no qual os modelos aparentam (falsamente) estar fundamentados no áudio, mas na verdade exploram correlações visuoacústicas sem verificar se os fluxos de áudio e visual estão verdadeiramente alinhados. Para estudar sistematicamente esse comportamento, introduzimos o Thud, uma estrutura de sondagem orientada por intervenções baseada em três edições de áudio contrafactuais: Deslocamento, que testa a sincronização temporal; Silenciamento, que testa a existência de som; e Troca, que testa a consistência audiovisual. Além do diagnóstico, estudamos ainda uma receita de alinhamento em dois estágios: pares de preferência derivados de intervenções ensinam a verificação de áudio, enquanto preferências gerais de vídeo em nível de evento regularizam o modelo contra a superespecialização. Nossa melhor receita com 10.000 amostras melhora o desempenho médio nas três dimensões de intervenção em 28 pontos percentuais, ao mesmo tempo que melhora ligeiramente o desempenho em benchmarks gerais de vídeo e de perguntas e respostas audiovisuais.

English

Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate acoustic information, rather than verifying the audio stream. This issue appears across both state-of-the-art open-source omni models and leading closed-source models from providers such as Google and OpenAI. We characterize this failure mode as an audio-visual Clever Hans effect, in which models appear (falsely) audio-grounded, but actually exploit visual-acoustic correlations without verifying whether the audio and visual streams are truly aligned. To systematically study this behavior, we introduce Thud, an intervention-driven probing framework based on three counterfactual audio edits: Shift, which tests temporal synchronization; Mute, which tests sound existence; and Swap, which tests audio-visual consistency. Beyond diagnosis, we further study a two-stage alignment recipe: intervention-derived preference pairs teach audio verification, while event-level general video preferences regularize the model against over-specialization. Our best 10K-sample recipe improves average performance across the three intervention dimensions by 28 percentage points, while slightly improving performance on general video and audio-visual QA benchmarks.