Mitigazione delle Allucinazioni Multimodali tramite Autoricompensa Fase-dipendente

Abstract

I grandi modelli visione-linguaggio (LVLM) continuano a lottare con il problema dell'allucinazione visiva, dove le risposte generate sono inconsistenti con l'input visivo. I metodi esistenti si basano su dati annotati su larga scala per il fine-tuning, il che comporta un enorme sovraccarico computazionale, oppure impiegano strategie post-hoc statiche che trascurano la natura dinamica dell'emergere delle allucinazioni. Per affrontare questi problemi, introduciamo un nuovo framework di auto-ricompensa (self-rewarding) che abilita una mitigazione dinamica delle allucinazioni al momento dell'inferenza senza supervisione esterna. Sul versante empirico, riveliamo che l'allucinazione visiva presenta pattern dinamici fase-specifici, piccando all'inizio di ogni fase semantica. Basandoci su queste intuizioni, proponiamo il PSRD (Phase-wise **Self-Reward Decoding**) per la correzione online delle allucinazioni guidata da segnali di auto-ricompensa fase-specifici. Per ridurre il costo della ripetuta auto-valutazione durante il decoding, distilliamo il segnale di guida per l'allucinazione dagli LVLM in un modello di ricompensa leggero (lightweight reward model). Questo modello fornisce poi una guida in tempo reale per un intervento mirato durante il processo di decoding, consentendo una soppressione precisa delle allucinazioni. Il PSRD proposto riduce significativamente il tasso di allucinazione di LLaVA-1.5-7B del 50.0% e supera costantemente i metodi post-hoc esistenti su cinque benchmark di valutazione delle allucinazioni per quattro LVLM. Ulteriori analisi confermano che il PSRD mitiga efficacemente la propagazione delle allucinazioni e raggiunge un compromesso altamente controllabile tra prestazioni robuste ed efficienza inferenziale.

English

Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.

Mitigazione delle Allucinazioni Multimodali tramite Autoricompensa Fase-dipendente

Mitigating Multimodal Hallucination via Phase-wise Self-reward

Abstract

Support