ChatPaper.aiChatPaper

환각 현상 억제: 반사실적 비디오 생성 기반 MLLM의 비디오 이해 능력 향상

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

December 30, 2025
저자: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 비디오 이해 분야에서 놀라운 발전을 이루었습니다. 그러나 이러한 모델은 중요한 취약점을 안고 있습니다: 언어 선행 지식에 대한 과도한 의존으로 인해, 특히 상식을 벗어나는 반실제적(counterfactual) 비디오를 처리할 때 시각적 근거가 희박한 환각 현상이 발생할 수 있습니다. 텍스트와 비디오 데이터 간의 본질적인 불균형에서 비롯된 이러한 한계는 반실제적 데이터 수집 및 주석 작업의 상당한 비용 때문에 해결하기 어렵습니다. 이를 해결하기 위해 우리는 통제 가능한 확산 기반 비디오 편집을 통해 실제 비디오를 반실제적 시나리오로 변환하는 새로운 반실제적 데이터 합성 프레임워크인 DualityForge를 소개합니다. 이 프레임워크는 구조화된 맥락 정보를 비디오 편집 및 질의응답 생성 과정에 내재시켜 대조 학습을 위한 원본-편집 비디오 쌍과 함께 고품질의 질의응답 쌍을 자동으로 생성합니다. 이를 바탕으로 MLLM 환각 현상을 줄이기 위해 설계된 대규모 비디오 데이터셋인 DualityVidQA를 구축했습니다. 또한, 우리가 생성한 쌍(pair) 데이터의 대조적 특성을 최대한 활용하기 위해 2단계 SFT-RL 훈련 방식인 Duality-Normalized Advantage Training(DNA-Train)을 제안합니다. 여기서 강화학습 단계는 쌍별(pair-wise) ell_1 이점 정규화를 적용하여 더 안정적이고 효율적인 정책 최적화를 가능하게 합니다. DualityVidQA-Test에 대한 실험 결과, 우리의 방법이 반실제적 비디오에 대한 모델 환각 현상을 상당히 줄여 Qwen2.5-VL-7B 기준선 대비 24.0%의 상대적 개선을 달성함을 보여줍니다. 더 나아가, 우리의 접근 방식은 환각 및 일반 목적 벤치마크 모두에서 유의미한 성능 향상을 이루어 뛰어난 일반화 능력을 입증했습니다. 우리는 데이터셋과 코드를 공개할 예정입니다.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.
PDF252January 6, 2026