TruthPrInt : Atténuation des hallucinations d'objets dans les LVLM grâce à une pré-intervention guidée par la vérité latente
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Auteurs: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Résumé
L'hallucination d'objets (OH) est reconnue comme l'un des principaux défis de fiabilité dans les modèles de vision et langage à grande échelle (LVLMs). Les récents progrès dans les modèles de langage à grande échelle (LLMs) indiquent que les états internes, tels que les états cachés, encodent la "véracité globale" des réponses générées. Cependant, il reste peu exploré comment les états internes des LVLMs fonctionnent et s'ils pourraient servir d'indicateurs d'hallucination "par token", ce qui est essentiel pour atténuer l'OH. Dans cet article, nous menons d'abord une exploration approfondie des états internes des LVLMs en relation avec les problèmes d'OH et découvrons que (1) les états internes des LVLMs sont des indicateurs par token de haute spécificité des comportements d'hallucination. De plus, (2) différents LVLMs encodent des modèles universels d'hallucination dans des sous-espaces latents communs, indiquant qu'il existe des "directions génériques de véracité" partagées par divers LVLMs. Sur la base de ces découvertes, nous proposons l'Intervention Préalable Guidée par la Véracité (TruthPrInt) qui apprend d'abord la direction de véracité du décodage des LVLMs, puis applique une intervention guidée par la véracité au moment de l'inférence lors du décodage des LVLMs. Nous proposons également ComnHallu pour améliorer la transférabilité de la détection d'hallucination à la fois entre LVLMs et entre données, en construisant et en alignant des sous-espaces latents d'hallucination. Nous évaluons TruthPrInt dans des configurations expérimentales variées, incluant des scénarios intra-domaines et hors-domaines, sur des LVLMs populaires et des benchmarks d'OH. Les résultats expérimentaux montrent que TruthPrInt surpasse significativement les méthodes de pointe. Les codes seront disponibles à l'adresse https://github.com/jinhaoduan/TruthPrInt.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary