Cuando la visión habla por el sonido

Resumen

A pesar del rápido progreso en los modelos multimodales de lenguaje (MLLMs) capaces de procesar video, encontramos que su aparente comprensión del audio en videos suele estar impulsada por la visión: los modelos se basan en señales visuales para inferir o alucinar información acústica, sin verificar el flujo de audio. Este problema se manifiesta tanto en modelos omniscientes de código abierto de última generación como en los principales modelos de código cerrado de proveedores como Google y OpenAI. Caracterizamos este modo de fallo como un efecto Clever Hans audiovisual, en el que los modelos aparentan (falsamente) estar fundamentados en el audio, pero en realidad explotan correlaciones visual-acústicas sin verificar si los flujos de audio y visual están realmente alineados. Para estudiar sistemáticamente este comportamiento, presentamos Thud, un marco de sondeo basado en intervenciones que emplea tres ediciones de audio contrafácticas: Shift, que prueba la sincronización temporal; Mute, que prueba la existencia del sonido; y Swap, que prueba la consistencia audiovisual. Más allá del diagnóstico, estudiamos además una receta de alineación en dos etapas: pares de preferencias derivados de intervenciones enseñan la verificación del audio, mientras que las preferencias generales de video a nivel de eventos regularizan el modelo contra la sobrespecialización. Nuestra mejor receta con 10.000 muestras mejora el rendimiento promedio en las tres dimensiones de intervención en 28 puntos porcentuales, al tiempo que mejora ligeramente el rendimiento en benchmarks generales de video y preguntas-respuestas audiovisuales.

English

Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate acoustic information, rather than verifying the audio stream. This issue appears across both state-of-the-art open-source omni models and leading closed-source models from providers such as Google and OpenAI. We characterize this failure mode as an audio-visual Clever Hans effect, in which models appear (falsely) audio-grounded, but actually exploit visual-acoustic correlations without verifying whether the audio and visual streams are truly aligned. To systematically study this behavior, we introduce Thud, an intervention-driven probing framework based on three counterfactual audio edits: Shift, which tests temporal synchronization; Mute, which tests sound existence; and Swap, which tests audio-visual consistency. Beyond diagnosis, we further study a two-stage alignment recipe: intervention-derived preference pairs teach audio verification, while event-level general video preferences regularize the model against over-specialization. Our best 10K-sample recipe improves average performance across the three intervention dimensions by 28 percentage points, while slightly improving performance on general video and audio-visual QA benchmarks.