Het Temmen van Hallucinaties: Verbetering van MLLM's Videobegrip via Contrafeitelijke Videogeneratie
Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
December 30, 2025
Auteurs: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLM's) hebben opmerkelijke vooruitgang geboekt in videobegrip. Ze lijden echter onder een kritieke kwetsbaarheid: een overmatige afhankelijkheid van taalpriors, wat kan leiden tot visueel ongegronde hallucinaties, vooral bij het verwerken van contrafeitelijke video's die de gezond verstand tarten. Deze beperking, die voortvloeit uit de intrinsieke data-onbalans tussen tekst en video, is moeilijk aan te pakken vanwege de aanzienlijke kosten van het verzamelen en annoteren van contrafeitelijke data. Om dit op te lossen, introduceren we DualityForge, een nieuw raamwerk voor de synthese van contrafeitelijke data dat gebruikmaakt van controleerbare, op diffusie gebaseerde videobewerking om real-world video's om te zetten in contrafeitelijke scenario's. Door gestructureerde contextuele informatie in te bedden in de videobewerkings- en QA-generatieprocessen, produceert het framework automatisch hoogwaardige QA-paren samen met origineel-bewerkte videoparen voor contrastieve training. Op basis hiervan bouwen we DualityVidQA, een grootschalige videodataset die is ontworpen om MLLM-hallucinaties te verminderen. Daarnaast stellen we, om het contrastieve karakter van onze gepaarde data ten volle te benutten, Duality-Normalized Advantage Training (DNA-Train) voor, een tweefasen SFT-RL-trainingsregime waarbij de RL-fase paarsgewijze ℓ₁-voordelnormalisatie toepast, waardoor een stabielere en efficiëntere beleidsoptimalisatie mogelijk wordt. Experimenten op DualityVidQA-Test tonen aan dat onze methode modelhallucinaties op contrafeitelijke video's aanzienlijk vermindert, wat een relatieve verbetering van 24,0% oplevert ten opzichte van de Qwen2.5-VL-7B-baseline. Bovendien behaalt onze aanpak significante winsten op zowel hallucinatie- als algemene benchmarks, wat wijst op een sterke generalisatiecapaciteit. We zullen onze dataset en code open source maken.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.