Mitigação de Alucinações Multimodais por meio de Auto-recompensa em Fases

Resumo

Os Grandes Modelos de Visão e Linguagem (LVLMs) ainda enfrentam dificuldades com a alucinação visual, onde as respostas geradas são inconsistentes com a entrada visual. Os métodos existentes ou dependem de dados anotados em larga escala para ajuste fino, o que acarreta um enorme custo computacional, ou empregam estratégias pós-hoc estáticas que ignoram a natureza dinâmica do surgimento de alucinações. Para resolver essas limitações, introduzimos uma nova estrutura de autorrecompensa, permitindo a mitigação dinâmica de alucinações no momento da inferência sem supervisão externa. No lado empírico, revelamos que a alucinação visual exibe padrões dinâmicos por fases, atingindo o pico no início de cada fase semântica. Com base nessas percepções, propomos o PSRD (Decodificação por Autorrecompensa por Fases) para correção online de alucinações orientada por sinais de autorrecompensa por fases. Para reduzir o custo da autoavaliação repetida durante a decodificação, destilamos o sinal de orientação de alucinação dos LVLMs em um modelo de recompensa leve. Este modelo de recompensa subsequentemente fornece orientação instantânea para intervenção direcionada durante o processo de decodificação, permitindo uma supressão precisa de alucinações. O PSRD proposto reduz significativamente a taxa de alucinação do LLaVA-1.5-7B em 50,0% e supera consistentemente os métodos pós-hoc existentes em cinco benchmarks de avaliação de alucinação para quatro LVLMs. Uma análise mais aprofundada confirma que o PSRD mitiga efetivamente a propagação de alucinações e alcança um equilíbrio altamente controlável entre alto desempenho e eficiência de inferência.

English

Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.

Mitigação de Alucinações Multimodais por meio de Auto-recompensa em Fases

Mitigating Multimodal Hallucination via Phase-wise Self-reward

Resumo

Support