OViP: Aprendizaje de Preferencias en Línea para Visión y Lenguaje
OViP: Online Vision-Language Preference Learning
May 21, 2025
Autores: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Resumen
Los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) siguen siendo vulnerables a la alucinación, generando con frecuencia contenido desalineado con las entradas visuales. Si bien enfoques recientes avanzan en la Optimización Directa de Preferencias (DPO) multimodal para mitigar la alucinación, generalmente dependen de muestras negativas predefinidas o editadas aleatoriamente que no reflejan los errores reales del modelo, limitando así la eficacia del entrenamiento. En este trabajo, proponemos un marco de Aprendizaje de Preferencias de Visión y Lenguaje en Línea (OViP) que construye dinámicamente datos de entrenamiento contrastivos basados en las salidas alucinadas del propio modelo. Al identificar diferencias semánticas entre pares de respuestas muestreadas y sintetizar imágenes negativas utilizando un modelo de difusión, OViP genera señales de supervisión más relevantes en tiempo real. Este entrenamiento basado en fallos permite una alineación adaptativa tanto de las preferencias textuales como visuales. Además, refinamos los protocolos de evaluación existentes para capturar mejor el equilibrio entre la supresión de alucinaciones y la expresividad. Los experimentos en benchmarks de alucinación y generales demuestran que OViP reduce efectivamente las alucinaciones mientras preserva las capacidades multimodales fundamentales.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.Summary
AI-Generated Summary