OViP: Online Präferenzlernen für Vision-Sprache
OViP: Online Vision-Language Preference Learning
May 21, 2025
Autoren: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (LVLMs) bleiben anfällig für Halluzinationen und erzeugen oft Inhalte, die nicht mit den visuellen Eingaben übereinstimmen. Obwohl aktuelle Ansätze die multimodale Direct Preference Optimization (DPO) vorantreiben, um Halluzinationen zu reduzieren, stützen sie sich typischerweise auf vordefinierte oder zufällig bearbeitete negative Beispiele, die tatsächliche Modellfehler nicht widerspiegeln, was die Trainingswirksamkeit einschränkt. In dieser Arbeit schlagen wir ein Framework für Online Vision-Language Preference Learning (OViP) vor, das kontrastive Trainingsdaten dynamisch auf der Grundlage der eigenen halluzinierten Ausgaben des Modells konstruiert. Durch die Identifizierung semantischer Unterschiede zwischen gepaarten Antworten und die Synthese negativer Bilder mithilfe eines Diffusionsmodells generiert OViP relevantere Überwachungssignale in Echtzeit. Dieses fehlergetriebene Training ermöglicht eine adaptive Ausrichtung sowohl textueller als auch visueller Präferenzen. Darüber hinaus verfeinern wir bestehende Evaluierungsprotokolle, um den Kompromiss zwischen Halluzinationsunterdrückung und Ausdrucksstärke besser zu erfassen. Experimente zu Halluzinationen und allgemeinen Benchmarks zeigen, dass OViP Halluzinationen effektiv reduziert, während die Kernfähigkeiten der Multimodalität erhalten bleiben.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.Summary
AI-Generated Summary