Atténuation des hallucinations multimodales par auto-récompense phaseuse
Mitigating Multimodal Hallucination via Phase-wise Self-reward
April 20, 2026
Auteurs: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang
cs.AI
Résumé
Les grands modèles vision-langage (LVLM) peinent encore avec les hallucinations visuelles, où les réponses générées sont incohérentes avec l'entrée visuelle. Les méthodes existantes reposent soit sur des données annotées à grande échelle pour le fine-tuning, ce qui engendre des coûts computationnels importants, soit sur des stratégies statiques post-hoc qui négligent la nature dynamique de l'émergence des hallucinations. Pour y remédier, nous proposons un nouveau cadre d'auto-récompense permettant une atténuation dynamique des hallucinations lors de l'inférence sans supervision externe. Sur le plan empirique, nous révélons que l'hallucination visuelle présente des motifs dynamiques par phases, culminant au début de chaque phase sémantique. En nous appuyant sur ces observations, nous proposons PSRD (Phase-wise Self-Reward Decoding) pour une correction en ligne des hallucinations guidée par des signaux d'auto-récompense phase par phase. Pour réduire le coût de l'auto-évaluation répétée durant le décodage, nous distillons le signal de guidage des hallucinations des LVLM dans un modèle de récompenne léger. Ce modèle fournit ensuite un guidage en temps réel pour une intervention ciblée durant le processus de décodage, permettant une suppression précise des hallucinations. La méthode PSRD proposée réduit significativement le taux d'hallucination de LLaVA-1.5-7B de 50,0% et surpasse constamment les méthodes post-hoc existantes sur cinq benchmarks d'évaluation d'hallucinations pour quatre LVLM. Une analyse approfondie confirme que PSRD atténue efficacement la propagation des hallucinations et permet un compromis hautement contrôlable entre performance robuste et efficacité d'inférence.
English
Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.