Minderung multimodaler Halluzinationen durch phasenweise Selbstbelohnung
Mitigating Multimodal Hallucination via Phase-wise Self-reward
April 20, 2026
Autoren: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (LVLMs) leiden nach wie vor unter visuellen Halluzinationen, bei denen die generierten Antworten nicht mit der visuellen Eingabe übereinstimmen. Bestehende Methoden setzen entweder auf groß angelegte annotierte Daten für das Fine-Tuning, was erheblichen Rechenaufwand verursacht, oder verwenden statische Post-hoc-Strategien, die die dynamische Natur der Halluzinationsentstehung außer Acht lassen. Um diese Probleme zu lösen, führen wir ein neues Self-Rewarding-Framework ein, das eine dynamische Minderung von Halluzinationen zur Inferenzzeit ohne externe Überwachung ermöglicht. Auf empirischer Seite zeigen wir, dass visuelle Halluzinationen phasenweise dynamische Muster aufweisen, die zu Beginn jeder semantischen Phase ihren Höhepunkt erreichen. Aufbauend auf diesen Erkenntnissen schlagen wir PSRD (Phase-wise \textbf{Self-Reward Decoding}) zur Online-Korrektur von Halluzinationen vor, die durch phasenweise Self-Reward-Signale gesteuert wird. Um den Aufwand für wiederholte Selbstevaluierung während der Decodierung zu reduzieren, destillieren wir das Halluzinationsführungs-Signal aus den LVLMs in ein leichtgewichtiges Reward-Modell. Dieses Reward-Modell liefert anschließend eine Echtzeit-Führung für gezielte Interventionen während des Decodierungsprozesses, was eine präzise Unterdrückung von Halluzinationen ermöglicht. Das vorgeschlagene PSRD reduziert die Halluzinationsrate von LLaVA-1.5-7B signifikant um 50,0 % und übertrifft bestehende Post-hoc-Methoden durchgängig auf fünf Halluzinations-Evaluierungs-Benchmarks für vier verschiedene LVLMs. Weitere Analysen bestätigen, dass PSRD die Ausbreitung von Halluzinationen wirksam eindämmt und einen hochgradig kontrollierbaren Kompromiss zwischen hoher Leistung und Inferenzeffizienz erreicht.
English
Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.