Domando las Alucinaciones: Potenciando la Comprensión de Videos en MLLMs mediante la Generación de Videos Contrafactuales
Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation
December 30, 2025
Autores: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un progreso notable en la comprensión de videos. Sin embargo, adolecen de una vulnerabilidad crítica: una dependencia excesiva de los *priors* lingüísticos, lo que puede provocar alucinaciones visuales no fundamentadas, especialmente al procesar videos contrafactuales que desafían el sentido común. Esta limitación, que surge del desequilibrio intrínseco de datos entre texto y video, es difícil de abordar debido al costo sustancial de recopilar y anotar datos contrafactuales. Para solucionarlo, presentamos DualityForge, un novedoso marco de síntesis de datos contrafactuales que emplea la edición de videos basada en difusión y controlable para transformar videos del mundo real en escenarios contrafactuales. Al incrustar información contextual estructurada en los procesos de edición de video y generación de preguntas y respuestas (QA), el marco produce automáticamente pares de QA de alta calidad junto con pares de videos originales y editados para un entrenamiento contrastivo. Sobre esta base, construimos DualityVidQA, un conjunto de datos de video a gran escala diseñado para reducir las alucinaciones en los MLLMs. Además, para explotar plenamente la naturaleza contrastiva de nuestros datos emparejados, proponemos Duality-Normalized Advantage Training (DNA-Train), un régimen de entrenamiento SFT-RL en dos fases en el que la fase de RL aplica una normalización de ventaja *pair-wise* ell_1, permitiendo así una optimización de políticas más estable y eficiente. Los experimentos en DualityVidQA-Test demuestran que nuestro método reduce sustancialmente las alucinaciones del modelo en videos contrafactuales, logrando una mejora relativa del 24,0% sobre la línea base Qwen2.5-VL-7B. Además, nuestro enfoque logra ganancias significativas tanto en benchmarks de alucinación como de propósito general, lo que indica una fuerte capacidad de generalización. Liberaremos nuestro conjunto de datos y código como código abierto.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.