VideoHalluzinationen: Evaluierung intrinsischer und extrinsischer Halluzinationen in großen Video-Sprachmodellen
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
Autoren: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) ihre Fähigkeiten auf das Verständnis von Videos ausgeweitet. Dennoch werden diese Modelle oft von "Halluzinationen" geplagt, bei denen irrelevante oder unsinnige Inhalte erzeugt werden, die vom tatsächlichen Videokontext abweichen. Diese Arbeit stellt VideoHallucer vor, den ersten umfassenden Benchmark für die Erkennung von Halluzinationen in großen Video-Sprachmodellen (LVLMs). VideoHallucer kategorisiert Halluzinationen in zwei Haupttypen: intrinsisch und extrinsisch und bietet weitere Unterkategorien für eine detaillierte Analyse, einschließlich Objekt-Beziehung, zeitlicher, semantischer Details, extrinsischer faktischer und extrinsischer nicht-faktischer Halluzinationen. Wir übernehmen eine adversarielle binäre VideoQA-Methode für eine umfassende Bewertung, bei der Paare von grundlegenden und halluzinierten Fragen strategisch erstellt werden. Durch die Bewertung von elf LVLMs auf VideoHallucer zeigen wir auf, dass i) die Mehrheit der aktuellen Modelle erhebliche Probleme mit Halluzinationen aufweist; ii) während das Skalieren von Datensätzen und Parametern die Fähigkeit der Modelle verbessert, grundlegende visuelle Hinweise und Gegenfaktische zu erkennen, bietet es nur begrenzten Nutzen für die Erkennung extrinsischer faktischer Halluzinationen; iii) bestehende Modelle sind besser darin, Fakten zu erkennen als Halluzinationen zu identifizieren. Als Nebenprodukt leiten diese Analysen die Entwicklung unseres Self-PEP-Frameworks weiter, das eine durchschnittliche Verbesserung der Halluzinationsresistenz von 5,38% bei allen Modellarchitekturen erzielt.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.Summary
AI-Generated Summary