OViP: 온라인 비전-언어 선호도 학습
OViP: Online Vision-Language Preference Learning
May 21, 2025
저자: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
초록
대규모 시각-언어 모델(LVLMs)은 여전히 환각(hallucination)에 취약하며, 시각적 입력과 일치하지 않는 내용을 생성하는 경우가 많습니다. 최근 접근법들은 환각을 완화하기 위해 다중 모달 직접 선호 최적화(DPO)를 발전시켰지만, 이들은 일반적으로 사전 정의되거나 무작위로 편집된 부정 샘플에 의존하여 실제 모델 오류를 반영하지 못함으로써 훈련 효과를 제한합니다. 본 연구에서는 모델 자체의 환각 출력을 기반으로 대조 훈련 데이터를 동적으로 구성하는 온라인 시각-언어 선호 학습(OViP) 프레임워크를 제안합니다. 샘플링된 응답 쌍 간의 의미적 차이를 식별하고 확산 모델을 사용하여 부정 이미지를 합성함으로써, OViP는 실시간으로 더 관련성 있는 감독 신호를 생성합니다. 이러한 실패 기반 훈련은 텍스트 및 시각적 선호의 적응적 정렬을 가능하게 합니다. 또한, 환각 억제와 표현력 간의 균형을 더 잘 포착하기 위해 기존 평가 프로토콜을 개선했습니다. 환각 및 일반 벤치마크에 대한 실험 결과, OViP가 핵심 다중 모달 능력을 유지하면서도 환각을 효과적으로 감소시키는 것을 확인했습니다.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.Summary
AI-Generated Summary