TruthPrInt: Het verminderen van LVLM-objecthallucinatie via latente waarheidsgeleide pre-interventie
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Auteurs: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Samenvatting
Object Hallucination (OH) wordt erkend als een van de belangrijkste betrouwbaarheidsuitdagingen in Large Vision-Language Models (LVLMs). Recente vooruitgang in Large Language Models (LLMs) suggereert dat interne toestanden, zoals verborgen toestanden, de "algemene waarheidsgetrouwheid" van gegenereerde antwoorden coderen. Het blijft echter onderbelicht hoe interne toestanden in LVLMs functioneren en of ze kunnen dienen als "per-token" hallucinatie-indicatoren, wat essentieel is voor het verminderen van OH. In dit artikel voeren we eerst een diepgaande verkenning uit van LVLM-interne toestanden in relatie tot OH-problemen en ontdekken dat (1) LVLM-interne toestanden hooggespecificeerde per-token indicatoren zijn van hallucinatiegedrag. Bovendien (2) coderen verschillende LVLMs universele patronen van hallucinaties in gemeenschappelijke latente deelruimten, wat aangeeft dat er "generieke waarheidsgetrouwe richtingen" bestaan die worden gedeeld door verschillende LVLMs. Op basis van deze ontdekkingen stellen we Truthful-Guided Pre-Intervention (TruthPrInt) voor, dat eerst de waarheidsgetrouwe richting van LVLM-decodering leert en vervolgens waarheidsgetrouwe begeleide interventie tijdens de inferentietijd toepast tijdens de LVLM-decodering. We stellen verder ComnHallu voor om zowel de overdraagbaarheid van hallucinatiedetectie tussen LVLMs als tussen data te verbeteren door hallucinatie latente deelruimten te construeren en uit te lijnen. We evalueren TruthPrInt in uitgebreide experimentele settings, inclusief in-domein en out-of-domein scenario's, over populaire LVLMs en OH-benchmarks. Experimentele resultaten tonen aan dat TruthPrInt aanzienlijk beter presteert dan state-of-the-art methoden. Codes zullen beschikbaar zijn op https://github.com/jinhaoduan/TruthPrInt.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary