Смягчение мультимодальных галлюцинаций с помощью поэтапного самовознаграждения
Mitigating Multimodal Hallucination via Phase-wise Self-reward
April 20, 2026
Авторы: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang
cs.AI
Аннотация
Крупные визуально-языковые модели (LVLM) по-прежнему сталкиваются с проблемой визуальных галлюцинаций, когда генерируемые ответы не соответствуют визуальному входу. Существующие методы либо полагаются на крупномасштабные размеченные данные для тонкой настройки, что влечет значительные вычислительные затраты, либо используют статические пост-обработки, игнорирующие динамическую природу возникновения галлюцинаций. Для решения этих проблем мы представляем новую само-вознаграждающую структуру, позволяющую динамически смягчать галлюцинации во время вывода без внешнего контроля. С эмпирической стороны мы показываем, что визуальные галлюцинации демонстрируют фазово-динамические паттерны, достигая пика в начале каждой семантической фазы. Основываясь на этих наблюдениях, мы предлагаем PSRD (фазовое декодирование с само-вознаграждением) для онлайн-коррекции галлюцинаций, направляемое фазовыми сигналами само-вознаграждения. Для снижения затрат на повторную самооценку во время декодирования мы дистиллируем сигнал управления галлюцинациями из LVLM в облегченную модель вознаграждения. Эта модель вознаграждения затем обеспечивает оперативное руководство для целевого вмешательства в процессе декодирования, позволяя точно подавлять галлюцинации. Предлагаемый метод PSRD значительно снижает уровень галлюцинаций модели LLaVA-1.5-7B на 50.0% и последовательно превосходит существующие методы пост-обработки на пяти тестовых наборах для оценки галлюцинаций для четырех LVLM. Дальнейший анализ подтверждает, что PSRD эффективно смягчает распространение галлюцинаций и обеспечивает высоко контролируемый баланс между высокой производительностью и эффективностью вывода.
English
Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose PSRD (Phase-wise \textbf{Self-Reward Decoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.