ChatPaper.aiChatPaper

幻覚の抑制:反事実的動画生成によるMLLMの映像理解能力向上 (注:MLLMはMultimodal Large Language Model(大規模マルチモーダル言語モデル)の略称です。専門用語として「MLLM」はそのまま表記し、必要に応じて括弧内に説明を追加しました)

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

December 30, 2025
著者: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、映像理解において目覚ましい進展を見せている。しかし、重大な脆弱性を抱えている。言語的な事前知識への過度な依存により、特に常識に反する反事実的映像を処理する際に、視覚的根拠を欠いた虚構(ハルシネーション)が生じやすいのである。この制約は、テキストと映像の本質的なデータ不均衡に起因しており、反事実的データの収集と注釈付けに多大なコストがかかるため、解決が困難である。この問題に対処するため、我々はDualityForgeを提案する。これは、制御可能な拡散モデルベースの映像編集を用いて実世界の映像を反事実的シナリオへ変換する、新しい反事実的データ合成フレームワークである。構造化された文脈情報を映像編集およびQA生成プロセスに組み込むことで、本フレームワークは、対照学習のための元映像と編集済み映像のペアと、高品質なQAペアを自動的に生成する。これに基づき、MLLMの虚構を軽減するために設計された大規模映像データセットDualityVidQAを構築した。さらに、このペアデータの対照性を最大限に活用するため、2段階のSFT-RL訓練手法であるDuality-Normalized Advantage Training(DNA-Train)を提案する。RL段階ではペア単位のℓ1アドバンテージ正規化を適用し、より安定かつ効率的な方策最適化を実現する。DualityVidQA-Testでの実験により、本手法が反事実的映像におけるモデルの虚構を大幅に軽減し、Qwen2.5-VL-7Bベースラインに対して24.0%の相対的改善をもたらすことが実証された。さらに、我々のアプローチは虚構評価と一般目的ベンチマークの両方で顕著な性能向上を達成し、強力な汎化能力を示している。データセットとコードは公開予定である。
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.
PDF252January 6, 2026