Domando Alucinações: Impulsionando a Compreensão de Vídeo em MLLMs por meio da Geração de Vídeos Contra-factuais

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm feito progressos notáveis na compreensão de vídeo. No entanto, eles sofrem de uma vulnerabilidade crítica: uma dependência excessiva de *priors* linguísticos, o que pode levar a alucinações visuais sem fundamento, especialmente ao processar vídeos contrafactuais que desafiam o senso comum. Esta limitação, decorrente do desequilíbrio intrínseco de dados entre texto e vídeo, é difícil de resolver devido ao custo substancial de coletar e anotar dados contrafactuais. Para resolver isso, introduzimos o DualityForge, uma nova estrutura de síntese de dados contrafactuais que emprega edição de vídeo baseada em difusão e controlável para transformar vídeos do mundo real em cenários contrafactuais. Ao incorporar informações contextuais estruturadas nos processos de edição de vídeo e geração de Perguntas e Respostas (QA), a estrutura produz automaticamente pares de QA de alta qualidade juntamente com pares de vídeo original-editado para treinamento contrastivo. Com base nisso, construímos o DualityVidQA, um grande conjunto de dados de vídeo projetado para reduzir as alucinações dos MLLMs. Além disso, para explorar plenamente a natureza contrastiva dos nossos dados emparelhados, propomos o Treinamento de Vantagem Normalizada por Dualidade (DNA-Train), um regime de treinamento SFT-RL em dois estágios onde a fase de RL aplica uma normalização de vantagem *pair-wise* ell_1, permitindo assim uma otimização de política mais estável e eficiente. Experimentos no DualityVidQA-Test demonstram que nosso método reduz substancialmente as alucinações do modelo em vídeos contrafactuais, produzindo uma melhoria relativa de 24,0% sobre a linha de base Qwen2.5-VL-7B. Além disso, nossa abordagem alcança ganhos significativos tanto em *benchmarks* de alucinação quanto de propósito geral, indicando uma forte capacidade de generalização. Disponibilizaremos nosso conjunto de dados e código em *open source*.

English

Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.

Domando Alucinações: Impulsionando a Compreensão de Vídeo em MLLMs por meio da Geração de Vídeos Contra-factuais

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

Resumo

Support