ChatPaper.aiChatPaper

OViP: オンライン視覚言語選好学習

OViP: Online Vision-Language Preference Learning

May 21, 2025
著者: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI

要旨

大規模視覚言語モデル(LVLM)は、依然として幻覚(hallucination)に脆弱であり、視覚的入力と整合しない内容を生成することが多い。最近のアプローチでは、幻覚を軽減するためにマルチモーダル直接選好最適化(DPO)が進展しているが、これらは通常、事前定義されたまたはランダムに編集された負のサンプルに依存しており、実際のモデルのエラーを反映していないため、訓練効果が制限されている。本研究では、モデル自身の幻覚出力に基づいて動的にコントラスティブ訓練データを構築するオンライン視覚言語選好学習(OViP)フレームワークを提案する。サンプリングされた応答ペア間の意味的差異を特定し、拡散モデルを使用して負の画像を合成することで、OViPはより関連性の高い監督信号をリアルタイムで生成する。この失敗駆動型訓練により、テキストと視覚の選好の適応的整合が可能となる。さらに、幻覚抑制と表現力のトレードオフをより適切に捉えるために、既存の評価プロトコルを改良した。幻覚および一般的なベンチマークでの実験により、OViPがコアとなるマルチモーダル能力を維持しつつ、幻覚を効果的に低減することが実証された。
English
Large vision-language models (LVLMs) remain vulnerable to hallucination, often generating content misaligned with visual inputs. While recent approaches advance multi-modal Direct Preference Optimization (DPO) to mitigate hallucination, they typically rely on predefined or randomly edited negative samples that fail to reflect actual model errors, limiting training efficacy. In this work, we propose an Online Vision-language Preference Learning (OViP) framework that dynamically constructs contrastive training data based on the model's own hallucinated outputs. By identifying semantic differences between sampled response pairs and synthesizing negative images using a diffusion model, OViP generates more relevant supervision signals in real time. This failure-driven training enables adaptive alignment of both textual and visual preferences. Moreover, we refine existing evaluation protocols to better capture the trade-off between hallucination suppression and expressiveness. Experiments on hallucination and general benchmarks demonstrate that OViP effectively reduces hallucinations while preserving core multi-modal capabilities.

Summary

AI-Generated Summary

PDF62May 23, 2025