OViP: Apprendimento Online delle Preferenze Visione-Linguaggio
OViP: Online Vision-Language Preference Learning
May 21, 2025
Autori: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Abstract
I grandi modelli visione-linguaggio (LVLM) rimangono vulnerabili all'allucinazione, generando spesso contenuti non allineati con gli input visivi. Sebbene approcci recenti abbiano avanzato l'ottimizzazione diretta delle preferenze multimodali (DPO) per mitigare l'allucinazione, essi si basano tipicamente su campioni negativi predefiniti o modificati casualmente che non riflettono gli errori effettivi del modello, limitando l'efficacia dell'addestramento. In questo lavoro, proponiamo un framework di apprendimento delle preferenze visione-linguaggio online (OViP) che costruisce dinamicamente dati di addestramento contrastivi basati sugli output allucinati del modello stesso. Identificando le differenze semantiche tra coppie di risposte campionate e sintetizzando immagini negative utilizzando un modello di diffusione, OViP genera segnali di supervisione più rilevanti in tempo reale. Questo addestramento guidato dagli errori consente un allineamento adattivo delle preferenze sia testuali che visive. Inoltre, perfezioniamo i protocolli di valutazione esistenti per catturare meglio il compromesso tra soppressione dell'allucinazione ed espressività. Esperimenti su benchmark di allucinazione e generali dimostrano che OViP riduce efficacemente le allucinazioni preservando le capacità multimodali fondamentali.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.