VideoHallucer: Evaluatie van intrinsieke en extrinsieke hallucinaties in grote video-taalmodellen
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
Auteurs: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
Samenvatting
Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft hun mogelijkheden uitgebreid naar videobegrip. Toch worden deze modellen vaak geplaagd door "hallucinaties", waarbij irrelevante of onzinnige inhoud wordt gegenereerd, wat afwijkt van de werkelijke videocontext. Dit werk introduceert VideoHallucer, de eerste uitgebreide benchmark voor het detecteren van hallucinaties in grote video-taalmodellen (LVLMs). VideoHallucer categoriseert hallucinaties in twee hoofdtypen: intrinsiek en extrinsiek, met verdere subcategorieën voor gedetailleerde analyse, waaronder object-relatie, temporele, semantische detail-, extrinsieke feitelijke en extrinsieke niet-feitelijke hallucinaties. We hanteren een adversariële binaire VideoQA-methode voor een uitgebreide evaluatie, waarbij paren van basis- en gehallucineerde vragen strategisch worden opgesteld. Door elf LVLMs te evalueren op VideoHallucer, onthullen we dat i) de meeste huidige modellen aanzienlijke problemen hebben met hallucinaties; ii) hoewel het schalen van datasets en parameters het vermogen van modellen verbetert om basisvisuele aanwijzingen en tegenfeitelijkheden te detecteren, biedt het beperkt voordeel voor het detecteren van extrinsieke feitelijke hallucinaties; iii) bestaande modellen zijn beter in het detecteren van feiten dan in het identificeren van hallucinaties. Als bijproduct leiden deze analyses verder tot de ontwikkeling van ons zelf-PEP-framework, wat een gemiddelde verbetering van 5,38% oplevert in hallucinatieresistentie over alle modelarchitecturen.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.