TruthPrInt: Mitigando Alucinações de Objetos em LVLM por meio de Pré-Intervenção Guiada por Verdade Latente
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Autores: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Resumo
A alucinação de objetos (Object Hallucination - OH) tem sido reconhecida como um dos principais desafios de confiabilidade em Modelos de Linguagem e Visão de Grande Escala (Large Vision-Language Models - LVLMs). Avanços recentes em Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) indicam que estados internos, como estados ocultos, codificam a "veracidade geral" das respostas geradas. No entanto, ainda é pouco explorado como os estados internos em LVLMs funcionam e se eles poderiam servir como indicadores de alucinação "por token", o que é essencial para mitigar a OH. Neste artigo, primeiro realizamos uma exploração aprofundada dos estados internos de LVLMs em relação a problemas de OH e descobrimos que (1) os estados internos de LVLMs são indicadores de alucinação por token de alta especificidade. Além disso, (2) diferentes LVLMs codificam padrões universais de alucinação em subespaços latentes comuns, indicando que existem "direções genéricas de veracidade" compartilhadas por vários LVLMs. Com base nessas descobertas, propomos a Intervenção Prévia Guiada pela Veracidade (Truthful-Guided Pre-Intervention - TruthPrInt), que primeiro aprende a direção de veracidade da decodificação do LVLM e, em seguida, aplica uma intervenção guiada pela veracidade durante a decodificação do LVLM. Propomos ainda o ComnHallu para aprimorar a transferibilidade de detecção de alucinação tanto entre LVLMs quanto entre dados, construindo e alinhando subespaços latentes de alucinação. Avaliamos o TruthPrInt em diversos cenários experimentais, incluindo cenários dentro e fora do domínio, em LVLMs populares e benchmarks de OH. Os resultados experimentais indicam que o TruthPrInt supera significativamente os métodos state-of-the-art. Os códigos estarão disponíveis em https://github.com/jinhaoduan/TruthPrInt.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary