OViP: Онлайн-обучение предпочтениям на основе зрения и языка
OViP: Online Vision-Language Preference Learning
May 21, 2025
Авторы: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Аннотация
Крупные визуально-языковые модели (LVLMs) остаются уязвимыми к галлюцинациям, часто генерируя контент, не соответствующий визуальным данным. Хотя современные подходы продвигают многомодальную оптимизацию прямых предпочтений (DPO) для смягчения галлюцинаций, они обычно полагаются на заранее заданные или случайно отредактированные отрицательные примеры, которые не отражают реальные ошибки модели, ограничивая эффективность обучения. В данной работе мы предлагаем фреймворк Online Vision-language Preference Learning (OViP), который динамически формирует контрастные обучающие данные на основе собственных галлюцинированных выходов модели. Выявляя семантические различия между парами сэмплированных ответов и синтезируя отрицательные изображения с использованием диффузионной модели, OViP генерирует более релевантные сигналы обучения в реальном времени. Этот подход, основанный на ошибках, позволяет адаптивно согласовывать как текстовые, так и визуальные предпочтения. Кроме того, мы уточняем существующие протоколы оценки, чтобы лучше учитывать компромисс между подавлением галлюцинаций и выразительностью. Эксперименты на тестах по галлюцинациям и общим бенчмаркам показывают, что OViP эффективно снижает галлюцинации, сохраняя при этом ключевые многомодальные возможности.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.Summary
AI-Generated Summary