Mitigación de la Alucinación Multimodal mediante Autorecompensa por Fases

Resumen

Los Grandes Modelos de Vision y Lenguaje (LVLM) aún presentan dificultades con la alucinación visual, donde las respuestas generadas son inconsistentes con la entrada visual. Los métodos existentes dependen de datos anotados a gran escala para el ajuste fino, lo que conlleva una enorme sobrecarga computacional, o emplean estrategias estáticas post-hoc que pasan por alto la naturaleza dinámica de la aparición de alucinaciones. Para abordar estos problemas, introducimos un nuevo marco de auto-recompensa que permite la mitigación dinámica de alucinaciones durante la inferencia sin supervisión externa. En el aspecto empírico, revelamos que la alucinación visual exhibe patrones dinámicos por fases, alcanzando su punto máximo al inicio de cada fase semántica. Basándonos en estas observaciones, proponemos PSRD (Decodificación con Auto-Recompensa por Fases) para la corrección online de alucinaciones guiada por señales de auto-recompensa por fases. Para reducir el coste de la autoevaluación repetida durante la decodificación, destilamos la señal de guía de alucinación de los LVLM en un modelo de recompensa ligero. Este modelo de recompensa proporciona posteriormente una guía en tiempo real para una intervención dirigida durante el proceso de decodificación, permitiendo una supresión precisa de las alucinaciones. El PSRD propuesto reduce significativamente la tasa de alucinación de LLaVA-1.5-7B en un 50.0% y supera consistentemente a los métodos post-hoc existentes en cinco benchmarks de evaluación de alucinaciones para cuatro LVLM. Un análisis adicional confirma que PSRD mitiga efectivamente la propagación de alucinaciones y logra un equilibrio altamente controlable entre un rendimiento sólido y la eficiencia en la inferencia.

English

Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.

Mitigación de la Alucinación Multimodal mediante Autorecompensa por Fases

Mitigating Multimodal Hallucination via Phase-wise Self-reward

Resumen

Support