OViP: Online Visueel-Taalvoorkeuren Leren

Samenvatting

Grote visueel-taalkundige modellen (LVLMs) blijven kwetsbaar voor hallucinaties, waarbij vaak inhoud wordt gegenereerd die niet overeenkomt met visuele invoer. Hoewel recente benaderingen multi-modale Direct Preference Optimization (DPO) bevorderen om hallucinaties te verminderen, vertrouwen ze doorgaans op vooraf gedefinieerde of willekeurig bewerkte negatieve voorbeelden die niet de werkelijke modelfouten weerspiegelen, wat de trainingsdoeltreffendheid beperkt. In dit werk stellen we een Online Vision-language Preference Learning (OViP) raamwerk voor dat dynamisch contrastieve trainingsgegevens construeert op basis van de eigen hallucinatoire uitvoer van het model. Door semantische verschillen tussen gesampelde responsparen te identificeren en negatieve afbeeldingen te synthetiseren met behulp van een diffusiemodel, genereert OViP relevantere begeleidingssignalen in realtime. Deze foutgedreven training maakt adaptieve afstemming van zowel tekstuele als visuele voorkeuren mogelijk. Bovendien verfijnen we bestaande evaluatieprotocollen om de afweging tussen hallucinatieonderdrukking en expressiviteit beter te vatten. Experimenten op hallucinatie- en algemene benchmarks tonen aan dat OViP hallucinaties effectief vermindert terwijl de kernmulti-modale capaciteiten behouden blijven.

English

Large vision-language models (LVLMs) remain vulnerable to hallucination, often generating content misaligned with visual inputs. While recent approaches advance multi-modal Direct Preference Optimization (DPO) to mitigate hallucination, they typically rely on predefined or randomly edited negative samples that fail to reflect actual model errors, limiting training efficacy. In this work, we propose an Online Vision-language Preference Learning (OViP) framework that dynamically constructs contrastive training data based on the model's own hallucinated outputs. By identifying semantic differences between sampled response pairs and synthesizing negative images using a diffusion model, OViP generates more relevant supervision signals in real time. This failure-driven training enables adaptive alignment of both textual and visual preferences. Moreover, we refine existing evaluation protocols to better capture the trade-off between hallucination suppression and expressiveness. Experiments on hallucination and general benchmarks demonstrate that OViP effectively reduces hallucinations while preserving core multi-modal capabilities.

OViP: Online Visueel-Taalvoorkeuren Leren

OViP: Online Vision-Language Preference Learning

Samenvatting

Support