Domare le Allucinazioni: Migliorare la Comprensione Video dei MLLM tramite Generazione Video Controfattuale
Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
December 30, 2025
Autori: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi notevoli nella comprensione video. Tuttavia, presentano una vulnerabilità critica: un'eccessiva dipendenza dai preconcetti linguistici, che può portare a allucinazioni visive non fondate, specialmente durante l'elaborazione di video controfattuali che sfidano il senso comune. Questa limitazione, che origina dallo squilibrio intrinseco dei dati tra testo e video, è difficile da affrontare a causa del costo sostanzioso della raccolta e annotazione di dati controfattuali. Per risolvere questo problema, introduciamo DualityForge, un innovativo framework di sintesi di dati controfattuali che utilizza l'editing video basato su modelli di diffusione controllabile per trasformare video del mondo reale in scenari controfattuali. Incorporando informazioni contestuali strutturate nei processi di editing video e generazione di domande-risposte (QA), il framework produce automaticamente coppie QA di alta qualità insieme a coppie video originali-modificati per l'addestramento contrastivo. Su questa base, costruiamo DualityVidQA, un dataset video su larga scala progettato per ridurre le allucinazioni negli MLLM. Inoltre, per sfruttare appieno la natura contrastiva dei nostri dati accoppiati, proponiamo Duality-Normalized Advantage Training (DNA-Train), un regime di addestramento SFT-RL a due fasi in cui la fase RL applica una normalizzazione del vantaggio pairwise ell_1, consentendo così un'ottimizzazione della policy più stabile ed efficiente. Gli esperimenti su DualityVidQA-Test dimostrano che il nostro metodo riduce sostanzialmente le allucinazioni del modello sui video controfattuali, producendo un miglioramento relativo del 24,0% rispetto al baseline Qwen2.5-VL-7B. Inoltre, il nostro approccio ottiene guadagni significativi sia nei benchmark sulle allucinazioni che in quelli per scopi generici, indicando una forte capacità di generalizzazione. Renderemo open-source il nostro dataset e il codice.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.