Bändigung von Halluzinationen: Verbesserung des Videoverständnisses von MLLMs durch kontrafaktische Videogenerierung
Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
December 30, 2025
papers.authors: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) haben bemerkenswerte Fortschritte im Video-Verständnis erzielt. Allerdings weisen sie eine kritische Schwachstelle auf: eine zu starke Abhängigkeit von Sprach-Priors, die zu visuell unbegründeten Halluzinationen führen kann, insbesondere bei der Verarbeitung von kontrafaktischen Videos, die dem gesunden Menschenverstand widersprechen. Diese Einschränkung, die aus dem intrinsischen Datenungleichgewicht zwischen Text und Video resultiert, ist aufgrund der erheblichen Kosten für die Erfassung und Annotation kontrafaktischer Daten schwer zu beheben. Um dieses Problem anzugehen, stellen wir DualityForge vor, ein neuartiges Framework zur Synthese kontrafaktischer Daten, das kontrollierbare, diffusionsbasierte Videobearbeitung einsetzt, um reale Videos in kontrafaktische Szenarien zu transformieren. Durch die Einbettung strukturierter Kontextinformationen in den Videobearbeitungs- und QA-Generierungsprozess erzeugt das Framework automatisch hochwertige QA-Paare zusammen mit Original-Bearbeitet-Video-Paaren für kontrastives Training. Auf dieser Grundlage erstellen wir DualityVidQA, einen großen Video-Datensatz, der entwickelt wurde, um MLLM-Halluzinationen zu reduzieren. Zusätzlich schlagen wir, um den kontrastiven Charakter unserer gepaarten Daten voll auszuschöpfen, Duality-Normalized Advantage Training (DNA-Train) vor, ein zweistufiges SFT-RL-Trainingsregime, bei dem die RL-Phase eine paarweise ℓ₁-Vorteilsnormalisierung anwendet und so eine stabilere und effizientere Policy-Optimierung ermöglicht. Experimente auf DualityVidQA-Test zeigen, dass unsere Methode Modell-Halluzinationen bei kontrafaktischen Videos erheblich reduziert und eine relative Verbesserung von 24,0 % gegenüber der Qwen2.5-VL-7B-Baseline erzielt. Darüber hinaus erzielt unser Ansatz signifikante Gewinne sowohl in Halluzinations- als auch in allgemeinen Benchmarks, was auf eine starke Generalisierungsfähigkeit hindeutet. Wir werden unseren Datensatz und unseren Code open-source verfügbar machen.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.