Het Onderzoeken van Hallucinaties in Grote Multimodale Modellen bij Videobegrip: Benchmark, Analyse en Mitigatie
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
March 25, 2025
Auteurs: Hongcheng Gao, Jiashu Qu, Jingyi Tang, Baolong Bi, Yue Liu, Hongyu Chen, Li Liang, Li Su, Qingming Huang
cs.AI
Samenvatting
De hallucinatie van grote multimodale modellen (LMMs), waarbij ze antwoorden geven die correct lijken maar feitelijk onjuist zijn, beperkt hun betrouwbaarheid en toepasbaarheid. Dit artikel heeft als doel het hallucinatieprobleem van LMMs in de videomodaliteit te bestuderen, wat dynamisch en uitdagender is in vergelijking met statische modaliteiten zoals afbeeldingen en tekst. Vanuit deze motivatie presenteren we eerst een uitgebreide benchmark genaamd HAVEN voor het evalueren van hallucinaties van LMMs in videobegriptaken. Deze is gebouwd op drie dimensies, namelijk hallucinatieoorzaken, hallucinatieaspecten en vraagformaten, wat resulteert in 6K vragen. Vervolgens bestuderen we kwantitatief 7 invloedrijke factoren op hallucinaties, zoals de duur van video's, modelgroottes en modelredenering, via experimenten met 16 LMMs op de gepresenteerde benchmark. Daarnaast, geïnspireerd door recente denkmodellen zoals OpenAI o1, stellen we een video-denkmodel voor om de hallucinaties van LMMs te verminderen via supervised reasoning fine-tuning (SRFT) en direct preference optimization (TDPO) – waarbij SRFT de redeneervaardigheden verbetert en TDPO hallucinaties in het denkproces vermindert. Uitgebreide experimenten en analyses tonen de effectiviteit aan. Opmerkelijk is dat het de baseline met 7,65% in nauwkeurigheid verbetert bij de evaluatie van hallucinaties en de bias-score met 4,5% verlaagt. De code en data zijn openbaar beschikbaar op https://github.com/Hongcheng-Gao/HAVEN.
English
The hallucination of large multimodal models (LMMs), providing responses that
appear correct but are actually incorrect, limits their reliability and
applicability. This paper aims to study the hallucination problem of LMMs in
video modality, which is dynamic and more challenging compared to static
modalities like images and text. From this motivation, we first present a
comprehensive benchmark termed HAVEN for evaluating hallucinations of LMMs in
video understanding tasks. It is built upon three dimensions, i.e.,
hallucination causes, hallucination aspects, and question formats, resulting in
6K questions. Then, we quantitatively study 7 influential factors on
hallucinations, e.g., duration time of videos, model sizes, and model
reasoning, via experiments of 16 LMMs on the presented benchmark. In addition,
inspired by recent thinking models like OpenAI o1, we propose a video-thinking
model to mitigate the hallucinations of LMMs via supervised reasoning
fine-tuning (SRFT) and direct preference optimization (TDPO)-- where SRFT
enhances reasoning capabilities while TDPO reduces hallucinations in the
thinking process. Extensive experiments and analyses demonstrate the
effectiveness. Remarkably, it improves the baseline by 7.65% in accuracy on
hallucination evaluation and reduces the bias score by 4.5%. The code and data
are public at https://github.com/Hongcheng-Gao/HAVEN.Summary
AI-Generated Summary