Quand la vision parle pour le son

Résumé

Malgré les progrès rapides des MLLM capables de traiter la vidéo, nous constatons que leur apparente compréhension audio dans les vidéos est souvent pilotée par la vision : les modèles s'appuient sur des indices visuels pour inférer ou halluciner des informations acoustiques, plutôt que de vérifier le flux audio. Ce problème se manifeste aussi bien dans les modèles omniscients open-source de pointe que dans les principaux modèles closed-source de fournisseurs tels que Google et OpenAI. Nous caractérisons ce mode de défaillance comme un effet Clever Hans audiovisuel, dans lequel les modèles semblent (faussement) ancrés dans l'audio, mais exploitent en réalité des corrélations visuo-acoustiques sans vérifier si les flux audio et visuels sont véritablement alignés. Pour étudier systématiquement ce comportement, nous introduisons Thud, un cadre de sondage basé sur des interventions reposant sur trois modifications audio contrefactuelles : Shift, qui teste la synchronisation temporelle ; Mute, qui teste l'existence du son ; et Swap, qui teste la cohérence audiovisuelle. Au-delà du diagnostic, nous étudions également une recette d'alignement en deux étapes : des paires de préférences dérivées d'interventions enseignent la vérification audio, tandis que des préférences vidéo générales au niveau des événements régularisent le modèle contre la sur-spécialisation. Notre meilleure recette sur 10 000 échantillons améliore la performance moyenne sur les trois dimensions d'intervention de 28 points de pourcentage, tout en améliorant légèrement les performances sur les références générales de vidéo et de questions-réponses audiovisuelles.

English

Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate acoustic information, rather than verifying the audio stream. This issue appears across both state-of-the-art open-source omni models and leading closed-source models from providers such as Google and OpenAI. We characterize this failure mode as an audio-visual Clever Hans effect, in which models appear (falsely) audio-grounded, but actually exploit visual-acoustic correlations without verifying whether the audio and visual streams are truly aligned. To systematically study this behavior, we introduce Thud, an intervention-driven probing framework based on three counterfactual audio edits: Shift, which tests temporal synchronization; Mute, which tests sound existence; and Swap, which tests audio-visual consistency. Beyond diagnosis, we further study a two-stage alignment recipe: intervention-derived preference pairs teach audio verification, while event-level general video preferences regularize the model against over-specialization. Our best 10K-sample recipe improves average performance across the three intervention dimensions by 28 percentage points, while slightly improving performance on general video and audio-visual QA benchmarks.