TruthPrInt: 잠재적 진실-유도 사전 개입을 통한 LVLM 객체 환각 완화
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
저자: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
초록
객체 환각(Object Hallucination, OH)은 대형 시각-언어 모델(Large Vision-Language Models, LVLMs)의 주요 신뢰성 문제 중 하나로 인식되어 왔습니다. 최근 대형 언어 모델(Large Language Models, LLMs)의 발전은 은닉 상태(hidden states)와 같은 내부 상태가 생성된 응답의 "전반적인 진실성"을 인코딩한다는 것을 보여주었습니다. 그러나 LVLMs의 내부 상태가 어떻게 작동하며, 이들이 "토큰 단위" 환각 지표로 활용될 수 있는지에 대한 연구는 아직 미흡한 상황입니다. 이러한 연구는 OH를 완화하는 데 필수적입니다. 본 논문에서는 먼저 LVLM의 내부 상태와 OH 문제 간의 관계를 심층적으로 탐구하고, (1) LVLM 내부 상태가 환각 행동에 대한 고도의 특이성을 지닌 토큰 단위 지표임을 발견했습니다. 또한, (2) 다양한 LVLMs가 공통의 잠재 부분 공간(latent subspaces)에서 환각의 보편적인 패턴을 인코딩한다는 사실을 확인했으며, 이는 다양한 LVLMs 간에 공유되는 "일반적인 진실 방향(generic truthful directions)"이 존재함을 시사합니다. 이러한 발견을 바탕으로, 우리는 LVLM 디코딩의 진실 방향을 먼저 학습한 후, LVLM 디코딩 과정에서 진실성 기반 추론 시점 개입(truthful-guided inference-time intervention)을 적용하는 Truthful-Guided Pre-Intervention(TruthPrInt)을 제안합니다. 또한, 환각 잠재 부분 공간을 구성하고 정렬함으로써 LVLM 간 및 데이터 간 환각 탐지 전이성을 강화하는 ComnHallu를 제안합니다. 우리는 TruthPrInt를 다양한 실험 설정에서 평가하였으며, 이는 인-도메인 및 아웃-오브-도메인 시나리오를 포함한 인기 있는 LVLMs와 OH 벤치마크에서 최신 방법들을 크게 능가하는 성능을 보여주었습니다. 코드는 https://github.com/jinhaoduan/TruthPrInt에서 공개될 예정입니다.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary