大規模マルチモーダルモデルのビデオ理解における幻覚現象の探求:ベンチマーク、分析、緩和策
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
March 25, 2025
著者: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI
要旨
大規模マルチモーダルモデル(LMM)の幻覚問題、すなわち一見正しいが実際には誤った応答を生成する現象は、その信頼性と適用性を制限しています。本論文は、画像やテキストのような静的モダリティに比べて動的でより挑戦的なビデオモダリティにおけるLMMの幻覚問題を研究することを目的としています。この動機から、まずビデオ理解タスクにおけるLMMの幻覚を評価するための包括的なベンチマーク「HAVEN」を提示します。これは幻覚の原因、幻覚の側面、質問形式の3次元に基づいて構築され、6,000の質問を生成します。次に、提示されたベンチマークを用いて16のLMMを実験し、ビデオの再生時間、モデルサイズ、モデルの推論能力など、幻覚に影響を与える7つの要因を定量的に研究します。さらに、OpenAI o1のような最近の思考モデルに触発され、教師付き推論ファインチューニング(SRFT)と直接選好最適化(TDPO)を介してLMMの幻覚を軽減するビデオ思考モデルを提案します。SRFTは推論能力を強化し、TDPOは思考プロセスにおける幻覚を減少させます。広範な実験と分析により、その有効性が実証されています。特に、幻覚評価における精度を7.65%向上させ、バイアススコアを4.5%減少させました。コードとデータはhttps://github.com/Hongcheng-Gao/HAVENで公開されています。
English
The hallucination of large multimodal models (LMMs), providing responses that
appear correct but are actually incorrect, limits their reliability and
applicability. This paper aims to study the hallucination problem of LMMs in
video modality, which is dynamic and more challenging compared to static
modalities like images and text. From this motivation, we first present a
comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in
video understanding tasks. It is built upon three dimensions, i.e.,
hallucination causes, hallucination aspects, and question formats, resulting in
6K questions. Then, we quantitatively study 7 influential factors on
hallucinations, e.g., duration time of videos, model sizes, and model
reasoning, via experiments of 16 LMMs on the presented benchmark. In addition,
inspired by recent thinking models like OpenAI o1, we propose a video-thinking
model to mitigate the hallucinations of LMMs via supervised reasoning
fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT
enhances reasoning capabilities while TDPO reduces hallucinations in the
thinking process. Extensive experiments and analyses demonstrate the
effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on
hallucination evaluation and reduces the bias score by 4.5%. The code and data
are public at https://github.com/Hongcheng-Gao/HAVEN.Summary
AI-Generated Summary