OViP: Online Visueel-Taalvoorkeuren Leren
OViP: Online Vision-Language Preference Learning
May 21, 2025
Auteurs: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Samenvatting
Grote visueel-taalkundige modellen (LVLMs) blijven kwetsbaar voor hallucinaties, waarbij vaak inhoud wordt gegenereerd die niet overeenkomt met visuele invoer. Hoewel recente benaderingen multi-modale Direct Preference Optimization (DPO) bevorderen om hallucinaties te verminderen, vertrouwen ze doorgaans op vooraf gedefinieerde of willekeurig bewerkte negatieve voorbeelden die niet de werkelijke modelfouten weerspiegelen, wat de trainingsdoeltreffendheid beperkt. In dit werk stellen we een Online Vision-language Preference Learning (OViP) raamwerk voor dat dynamisch contrastieve trainingsgegevens construeert op basis van de eigen hallucinatoire uitvoer van het model. Door semantische verschillen tussen gesampelde responsparen te identificeren en negatieve afbeeldingen te synthetiseren met behulp van een diffusiemodel, genereert OViP relevantere begeleidingssignalen in realtime. Deze foutgedreven training maakt adaptieve afstemming van zowel tekstuele als visuele voorkeuren mogelijk. Bovendien verfijnen we bestaande evaluatieprotocollen om de afweging tussen hallucinatieonderdrukking en expressiviteit beter te vatten. Experimenten op hallucinatie- en algemene benchmarks tonen aan dat OViP hallucinaties effectief vermindert terwijl de kernmulti-modale capaciteiten behouden blijven.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.