OViP : Apprentissage en ligne des préférences vision-langage
OViP: Online Vision-Language Preference Learning
May 21, 2025
Auteurs: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Résumé
Les grands modèles vision-langage (LVLMs) restent vulnérables aux hallucinations, générant souvent un contenu non aligné avec les entrées visuelles. Bien que les approches récentes aient fait progresser l'optimisation directe des préférences multimodales (DPO) pour atténuer les hallucinations, elles reposent généralement sur des échantillons négatifs prédéfinis ou modifiés aléatoirement qui ne reflètent pas les erreurs réelles du modèle, limitant ainsi l'efficacité de l'entraînement. Dans ce travail, nous proposons un cadre d'apprentissage des préférences vision-langage en ligne (OViP) qui construit dynamiquement des données d'entraînement contrastives basées sur les sorties hallucinées du modèle lui-même. En identifiant les différences sémantiques entre les paires de réponses échantillonnées et en synthétisant des images négatives à l'aide d'un modèle de diffusion, OViP génère des signaux de supervision plus pertinents en temps réel. Cet entraînement basé sur les échecs permet un alignement adaptatif des préférences textuelles et visuelles. De plus, nous affinons les protocoles d'évaluation existants pour mieux capturer le compromis entre la suppression des hallucinations et l'expressivité. Les expériences sur les benchmarks d'hallucination et généraux démontrent qu'OViP réduit efficacement les hallucinations tout en préservant les capacités multimodales essentielles.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.Summary
AI-Generated Summary