TruthPrInt: Снижение галлюцинаций объектов в LVLM через скрытое управляемое истиной предварительное вмешательство
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Авторы: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Аннотация
Галлюцинации объектов (Object Hallucination, OH) признаны одной из основных проблем, связанных с доверием к крупным визуально-языковым моделям (Large Vision-Language Models, LVLMs). Последние достижения в области крупных языковых моделей (Large Language Models, LLMs) показывают, что внутренние состояния, такие как скрытые состояния, кодируют "общую правдивость" генерируемых ответов. Однако остается недостаточно изученным, как функционируют внутренние состояния в LVLMs и могут ли они служить "поточковыми" индикаторами галлюцинаций, что крайне важно для смягчения OH. В данной работе мы сначала проводим глубокое исследование внутренних состояний LVLMs в контексте проблем OH и обнаруживаем, что (1) внутренние состояния LVLMs являются высокоспецифичными поточковыми индикаторами поведения, связанного с галлюцинациями. Более того, (2) различные LVLMs кодируют универсальные паттерны галлюцинаций в общих латентных подпространствах, что указывает на существование "общих направлений правдивости", разделяемых различными LVLMs. На основе этих открытий мы предлагаем метод Truthful-Guided Pre-Intervention (TruthPrInt), который сначала изучает направление правдивости декодирования LVLM, а затем применяет управляемое правдивостью вмешательство на этапе вывода во время декодирования LVLM. Мы также предлагаем метод ComnHallu для улучшения переносимости обнаружения галлюцинаций как между различными LVLMs, так и между различными наборами данных, путем построения и выравнивания латентных подпространств галлюцинаций. Мы оцениваем TruthPrInt в различных экспериментальных условиях, включая внутридоменные и внедоменные сценарии, на популярных LVLMs и бенчмарках OH. Результаты экспериментов показывают, что TruthPrInt значительно превосходит современные методы. Код будет доступен по адресу https://github.com/jinhaoduan/TruthPrInt.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary