TruthPrInt: Mitigare l'Allucinazione degli Oggetti nei LVLM tramite Pre-Intervento Guidato dalla Verità Latente
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Autori: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Abstract
L'allucinazione di oggetti (OH) è stata riconosciuta come una delle principali sfide di affidabilità nei Modelli Linguistico-Visuali di Grande Scala (LVLM). I recenti progressi nei Modelli Linguistici di Grande Scala (LLM) indicano che gli stati interni, come gli stati nascosti, codificano la "veridicità complessiva" delle risposte generate. Tuttavia, rimane poco esplorato come funzionino gli stati interni nei LVLM e se possano servire come indicatori di allucinazione "per token", essenziali per mitigare l'OH. In questo articolo, conduciamo prima un'esplorazione approfondita degli stati interni dei LVLM in relazione ai problemi di OH e scopriamo che (1) gli stati interni dei LVLM sono indicatori per token ad alta specificità dei comportamenti di allucinazione. Inoltre, (2) diversi LVLM codificano modelli universali di allucinazione in sottospazi latenti comuni, indicando che esistono "direzioni veritiere generiche" condivise da vari LVLM. Sulla base di queste scoperte, proponiamo la Pre-Intervento Guidata dalla Verità (TruthPrInt) che prima apprende la direzione veritiera della decodifica del LVLM e poi applica un intervento guidato dalla verità durante la decodifica del LVLM. Proponiamo inoltre ComnHallu per migliorare la trasferibilità del rilevamento delle allucinazioni sia tra LVLM che tra dati, costruendo e allineando sottospazi latenti di allucinazione. Valutiamo TruthPrInt in ampie configurazioni sperimentali, inclusi scenari in dominio e fuori dominio, su LVLM popolari e benchmark OH. I risultati sperimentali indicano che TruthPrInt supera significativamente i metodi all'avanguardia. I codici saranno disponibili su https://github.com/jinhaoduan/TruthPrInt.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.