Wenn das Sehen für den Klang spricht

Zusammenfassung

Trotz rascher Fortschritte bei videofähigen MLLMs stellen wir fest, dass ihr scheinbares Audioverständnis in Videos oft visionsgetrieben ist: Modelle stützen sich auf visuelle Hinweise, um akustische Informationen zu erschließen oder zu halluzinieren, anstatt den Audiostream zu überprüfen. Dieses Problem tritt sowohl bei hochmodernen quelloffenen Omni-Modellen als auch bei führenden geschlossenen Modellen von Anbietern wie Google und OpenAI auf. Wir charakterisieren dieses Fehlermuster als einen audio-visuellen Kluger-Hans-Effekt, bei dem Modelle fälschlicherweise audiogestützt erscheinen, aber tatsächlich visuell-akustische Korrelationen ausnutzen, ohne zu überprüfen, ob Audio- und Videostream wirklich übereinstimmen. Um dieses Verhalten systematisch zu untersuchen, führen wir Thud ein, ein interventionsgestütztes Prüfrahmenwerk, das auf drei kontrafaktischen Audio-Bearbeitungen basiert: Shift (Prüfung der zeitlichen Synchronisation), Mute (Prüfung der Existenz von Ton) und Swap (Prüfung der audio-visuellen Konsistenz). Über die Diagnose hinaus untersuchen wir zudem ein zweistufiges Ausrichtungsrezept: Interventionsbasierte Präferenzpaare lehren die Audioverifikation, während allgemeine Videopräferenzen auf Ereignisebene das Modell vor Überspezialisierung bewahren. Unser bestes Rezept mit 10.000 Stichproben verbessert die durchschnittliche Leistung über die drei Interventionsdimensionen um 28 Prozentpunkte und steigert gleichzeitig die Leistung bei allgemeinen Video- und audio-visuellen QA-Benchmarks leicht.

English

Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate acoustic information, rather than verifying the audio stream. This issue appears across both state-of-the-art open-source omni models and leading closed-source models from providers such as Google and OpenAI. We characterize this failure mode as an audio-visual Clever Hans effect, in which models appear (falsely) audio-grounded, but actually exploit visual-acoustic correlations without verifying whether the audio and visual streams are truly aligned. To systematically study this behavior, we introduce Thud, an intervention-driven probing framework based on three counterfactual audio edits: Shift, which tests temporal synchronization; Mute, which tests sound existence; and Swap, which tests audio-visual consistency. Beyond diagnosis, we further study a two-stage alignment recipe: intervention-derived preference pairs teach audio verification, while event-level general video preferences regularize the model against over-specialization. Our best 10K-sample recipe improves average performance across the three intervention dimensions by 28 percentage points, while slightly improving performance on general video and audio-visual QA benchmarks.