ChatPaper.aiChatPaper

Dompter les hallucinations : Améliorer la compréhension vidéo des MLLM via la génération de vidéos contrefactuelles

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

December 30, 2025
papers.authors: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI

papers.abstract

Les modèles de langage multimodaux (MLLM) ont accompli des progrès remarquables dans la compréhension vidéo. Cependant, ils souffrent d'une vulnérabilité critique : une dépendance excessive aux préalables linguistiques, ce qui peut entraîner des hallucinations visuelles non fondées, particulièrement lors du traitement de vidéos contrefactuelles qui défient le bon sens. Cette limitation, découlant du déséquilibre intrinsèque des données entre le texte et la vidéo, est difficile à résoudre en raison du coût substantiel de collecte et d'annotation des données contrefactuelles. Pour y remédier, nous présentons DualityForge, un nouveau cadre de synthèse de données contrefactuelles qui utilise l'édition vidéo contrôlée par diffusion pour transformer des vidéos du monde réel en scénarios contrefactuels. En intégrant une information contextuelle structurée dans les processus d'édition vidéo et de génération de questions-réponses (QA), le cadre produit automatiquement des paires QA de haute qualité ainsi que des paires vidéo originales-éditées pour un apprentissage contrastif. Sur cette base, nous construisons DualityVidQA, un jeu de données vidéo à grande échelle conçu pour réduire les hallucinations des MLLM. De plus, pour exploiter pleinement la nature contrastive de nos données appariées, nous proposons Duality-Normalized Advantage Training (DNA-Train), un régime d'entraînement SFT-RL en deux phases où la phase RL applique une normalisation des avantages par paires de type ℓ₁, permettant ainsi une optimisation de politique plus stable et efficace. Les expériences sur DualityVidQA-Test démontrent que notre méthode réduit substantiellement les hallucinations du modèle sur les vidéos contrefactuelles, produisant une amélioration relative de 24,0 % par rapport à la baseline Qwen2.5-VL-7B. Par ailleurs, notre approche obtient des gains significatifs à la fois sur les benchmarks d'hallucination et les benchmarks généralistes, indiquant une forte capacité de généralisation. Nous ouvrirons notre jeu de données et notre code en accès libre.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.
PDF252January 6, 2026