ChatPaper.aiChatPaper

Укрощение галлюцинаций: улучшение понимания видео MLLM с помощью контрфактуальной генерации видео

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

December 30, 2025
Авторы: Zhe Huang, Hao Wen, Aiming Hao, Bingze Song, Meiqi Wu, Jiahong Wu, Xiangxiang Chu, Sheng Lu, Haoqian Wang
cs.AI

Аннотация

Мультимодальные большие языковые модели (MБЯМ) достигли значительного прогресса в понимании видео. Однако они обладают критической уязвимостью: чрезмерной зависимостью от языковых априорных предположений, что может приводить к визуально необоснованным галлюцинациям, особенно при обработке контрафактических видео, противоречащих здравому смыслу. Это ограничение, проистекающее из внутреннего дисбаланса данных между текстом и видео, сложно устранить из-за значительных затрат на сбор и разметку контрафактических данных. Для решения этой проблемы мы представляем DualityForge — новую структуру синтеза контрафактических данных, которая использует управляемое диффузионное редактирование видео для преобразования реальных видеороликов в контрафактические сценарии. Встраивая структурированную контекстуальную информацию в процессы редактирования видео и генерации вопросов-ответов, структура автоматически создает высококачественные пары вопросов-ответов вместе с парами исходных и отредактированных видео для контрастного обучения. На этой основе мы создаем DualityVidQA — крупномасштабный видео-набор данных, предназначенный для снижения галлюцинаций в МБЯМ. Кроме того, для полного использования контрастной природы наших парных данных мы предлагаем Duality-Normalized Advantage Training (DNA-Train) — двухэтапный режим обучения SFT-RL, в котором фаза RL применяет попарную нормализацию преимущества ℓ₁, что обеспечивает более стабильную и эффективную оптимизацию политики. Эксперименты на DualityVidQA-Test показывают, что наш метод существенно снижает галлюцинации модели на контрафактических видео, демонстрируя относительное улучшение на 24,0% по сравнению с базовой моделью Qwen2.5-VL-7B. Более того, наш подход обеспечивает значительный прирост производительности как на бенчмарках галлюцинаций, так и на общецелевых бенчмарках, что указывает на сильную обобщающую способность. Мы опубликуем наш набор данных и код в открытом доступе.
English
Multimodal Large Language Models (MLLMs) have made remarkable progress in video understanding. However, they suffer from a critical vulnerability: an over-reliance on language priors, which can lead to visual ungrounded hallucinations, especially when processing counterfactual videos that defy common sense. This limitation, stemming from the intrinsic data imbalance between text and video, is challenging to address due to the substantial cost of collecting and annotating counterfactual data. To address this, we introduce DualityForge, a novel counterfactual data synthesis framework that employs controllable, diffusion-based video editing to transform real-world videos into counterfactual scenarios. By embedding structured contextual information into the video editing and QA generation processes, the framework automatically produces high-quality QA pairs together with original-edited video pairs for contrastive training. Based on this, we build DualityVidQA, a large-scale video dataset designed to reduce MLLM hallucinations. In addition, to fully exploit the contrastive nature of our paired data, we propose Duality-Normalized Advantage Training (DNA-Train), a two-stage SFT-RL training regime where the RL phase applies pair-wise ell_1 advantage normalization, thereby enabling a more stable and efficient policy optimization. Experiments on DualityVidQA-Test demonstrate that our method substantially reduces model hallucinations on counterfactual videos, yielding a relative improvement of 24.0% over the Qwen2.5-VL-7B baseline. Moreover, our approach achieves significant gains across both hallucination and general-purpose benchmarks, indicating strong generalization capability. We will open-source our dataset and code.
PDF252January 6, 2026