VideoHallucer: 대형 비디오-언어 모델의 내재적 및 외재적 환각 현상 평가
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
June 24, 2024
저자: Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLMs)의 발전으로 비디오 이해 능력이 확장되었습니다. 그러나 이러한 모델들은 종종 "환각(hallucination)" 문제에 시달리는데, 이는 실제 비디오 맥락과 벗어난 관련 없는 또는 말이 되지 않는 내용을 생성하는 현상을 말합니다. 본 연구에서는 대형 비디오-언어 모델(LVLMs)에서의 환각 탐지를 위한 첫 번째 포괄적인 벤치마크인 VideoHallucer를 소개합니다. VideoHallucer는 환각을 내재적(intrinsic)과 외재적(extrinsic) 두 가지 주요 유형으로 분류하고, 객체-관계, 시간적, 의미적 세부 사항, 외재적 사실, 외재적 비사실적 환각 등의 하위 범주를 제공하여 세부적인 분석을 가능하게 합니다. 우리는 포괄적인 평가를 위해 적대적 이진 비디오 질의응답(VideoQA) 방법을 채택했으며, 기본 질문과 환각이 포함된 질문 쌍을 전략적으로 구성했습니다. VideoHallucer를 통해 11개의 LVLM을 평가한 결과, i) 현재 대부분의 모델이 환각 문제에 심각한 문제를 보임, ii) 데이터셋과 매개변수를 확장하면 기본적인 시각적 단서와 반사실적 내용을 탐지하는 능력은 향상되지만, 외재적 사실적 환각을 탐지하는 데는 제한적인 이점만 제공됨, iii) 기존 모델들은 사실을 탐지하는 데는 능숙하지만 환각을 식별하는 데는 덜 능숙함을 확인했습니다. 이러한 분석은 부수적으로 우리의 자체 PEP(self-PEP) 프레임워크 개발에 지침을 제공하여 모든 모델 아키텍처에서 평균 5.38%의 환각 저항성 향상을 달성했습니다.
English
Recent advancements in Multimodal Large Language Models (MLLMs) have extended
their capabilities to video understanding. Yet, these models are often plagued
by "hallucinations", where irrelevant or nonsensical content is generated,
deviating from the actual video context. This work introduces VideoHallucer,
the first comprehensive benchmark for hallucination detection in large
video-language models (LVLMs). VideoHallucer categorizes hallucinations into
two main types: intrinsic and extrinsic, offering further subcategories for
detailed analysis, including object-relation, temporal, semantic detail,
extrinsic factual, and extrinsic non-factual hallucinations. We adopt an
adversarial binary VideoQA method for comprehensive evaluation, where pairs of
basic and hallucinated questions are crafted strategically. By evaluating
eleven LVLMs on VideoHallucer, we reveal that i) the majority of current models
exhibit significant issues with hallucinations; ii) while scaling datasets and
parameters improves models' ability to detect basic visual cues and
counterfactuals, it provides limited benefit for detecting extrinsic factual
hallucinations; iii) existing models are more adept at detecting facts than
identifying hallucinations. As a byproduct, these analyses further instruct the
development of our self-PEP framework, achieving an average of 5.38%
improvement in hallucination resistance across all model architectures.Summary
AI-Generated Summary