Het verminderen van multimodale hallucinaties via fasegewijze zelfbeloning
Mitigating Multimodal Hallucination via Phase-wise Self-reward
April 20, 2026
Auteurs: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang
cs.AI
Samenvatting
Grote Vision-Language Modellen (LVLM's) hebben nog steeds moeite met visuele hallucinaties, waarbij gegenereerde antwoorden inconsistent zijn met de visuele invoer. Bestaande methoden zijn ofwel afhankelijk van grootschalige geannoteerde data voor fine-tuning, wat enorme rekenkosten met zich meebrengt, ofwel gebruiken ze statische post-hoc strategieën die de dynamische aard van het ontstaan van hallucinaties over het hoofd zien. Om deze problemen aan te pakken, introduceren we een nieuw zelf-belonend raamwerk dat dynamische mitigatie van hallucinaties mogelijk maakt tijdens de inferentie, zonder externe supervisie. Empirisch tonen we aan dat visuele hallucinaties fasegewijze dynamische patronen vertonen, met een piek aan het begin van elke semantische fase. Gebaseerd op deze inzichten stellen we PSRD (Phase-wise **Self-Reward Decoding**) voor voor online correctie van hallucinaties, geleid door fasegewijze zelf-beloningssignalen. Om de kosten van herhaalde zelfevaluatie tijdens het decoderen te verminderen, destilleren we het hallucinatie-guidancesignaal uit de LVLM's in een lichtgewicht beloningsmodel. Dit beloningsmodel verschaft vervolgens real-time begeleiding voor gerichte interventie tijdens het decodeerproces, wat precieze onderdrukking van hallucinaties mogelijk maakt. De voorgestelde PSRD vermindert de hallucinatiefrequentie van LLaVA-1.5-7B significant met 50,0% en presteert consistent beter dan bestaande post-hoc methoden op vijf hallucinatie-evaluatiebenchmarks voor vier LVLM's. Verdere analyse bevestigt dat PSRD hallucinatiepropagatie effectief vermindert en een hoogstwaardeerbare afweging bereikt tussen sterke prestaties en inferentie-efficiëntie.
English
Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.