TruthPrInt: Mitigación de la alucinación de objetos en LVLM mediante preintervención guiada por la verdad latente
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Autores: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Resumen
La alucinación de objetos (OH, por sus siglas en inglés) ha sido reconocida como uno de los principales desafíos de confiabilidad en los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés). Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) indican que los estados internos, como los estados ocultos, codifican la "veracidad general" de las respuestas generadas. Sin embargo, aún no se ha explorado suficientemente cómo funcionan los estados internos en los LVLMs y si podrían servir como indicadores de alucinación "por token", lo cual es esencial para mitigar la OH. En este artículo, primero realizamos una exploración en profundidad de los estados internos de los LVLMs en relación con los problemas de OH y descubrimos que (1) los estados internos de los LVLMs son indicadores de alta especificidad por token de comportamientos de alucinación. Además, (2) diferentes LVLMs codifican patrones universales de alucinaciones en subespacios latentes comunes, lo que indica que existen "direcciones genéricas de veracidad" compartidas por varios LVLMs. Basándonos en estos descubrimientos, proponemos Truthful-Guided Pre-Intervention (TruthPrInt), que primero aprende la dirección de veracidad de la decodificación del LVLM y luego aplica una intervención guiada por la veracidad durante la decodificación del LVLM. Además, proponemos ComnHallu para mejorar tanto la transferibilidad de detección de alucinaciones entre LVLMs como entre datos, mediante la construcción y alineación de subespacios latentes de alucinación. Evaluamos TruthPrInt en diversos escenarios experimentales, incluyendo situaciones dentro y fuera del dominio, sobre LVLMs populares y benchmarks de OH. Los resultados experimentales indican que TruthPrInt supera significativamente a los métodos más avanzados. Los códigos estarán disponibles en https://github.com/jinhaoduan/TruthPrInt.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary