ChatPaper.aiChatPaper

VideoHallucer: 大規模ビデオ言語モデルにおける内在的および外在的幻覚の評価

VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

June 24, 2024
著者: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI

要旨

近年のマルチモーダル大規模言語モデル(MLLM)の進展により、ビデオ理解への能力が拡張されてきた。しかし、これらのモデルはしばしば「幻覚(hallucination)」に悩まされており、実際のビデオの文脈から逸脱した無関係または無意味な内容が生成されることがある。本研究では、大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の包括的なベンチマークであるVideoHallucerを紹介する。VideoHallucerは幻覚を主に2つのタイプに分類し、さらに詳細な分析のためのサブカテゴリを提供する。これには、オブジェクト関係、時間的、意味的詳細、外部的事実、および外部非事実の幻覚が含まれる。我々は包括的評価のために敵対的な二値ビデオ質問応答(VideoQA)手法を採用し、基本的な質問と幻覚を誘発する質問のペアを戦略的に作成する。VideoHallucerを用いて11のLVLMを評価した結果、以下のことが明らかになった:i)現在のモデルの大多数は幻覚に大きな問題を抱えている;ii)データセットとパラメータのスケーリングは、基本的な視覚的キューや反事実の検出能力を向上させるが、外部的事実の幻覚の検出には限定的な効果しかない;iii)既存のモデルは事実を検出するよりも幻覚を識別する方が得意である。副産物として、これらの分析は我々の自己PEPフレームワークの開発にさらに指示を与え、すべてのモデルアーキテクチャにおいて幻覚耐性が平均5.38%向上した。
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended their capabilities to video understanding. Yet, these models are often plagued by "hallucinations", where irrelevant or nonsensical content is generated, deviating from the actual video context. This work introduces VideoHallucer, the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). VideoHallucer categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. We adopt an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. By evaluating eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models exhibit significant issues with hallucinations; ii) while scaling datasets and parameters improves models' ability to detect basic visual cues and counterfactuals, it provides limited benefit for detecting extrinsic factual hallucinations; iii) existing models are more adept at detecting facts than identifying hallucinations. As a byproduct, these analyses further instruct the development of our self-PEP framework, achieving an average of 5.38% improvement in hallucination resistance across all model architectures.

Summary

AI-Generated Summary

PDF272November 29, 2024