OViP: Aprendizado Online de Preferências Visuais e Linguísticas
OViP: Online Vision-Language Preference Learning
May 21, 2025
Autores: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI
Resumo
Grandes modelos de visão e linguagem (LVLMs) permanecem vulneráveis à alucinação, frequentemente gerando conteúdo desalinhado com as entradas visuais. Embora abordagens recentes avancem na Otimização de Preferência Direta (DPO) multimodal para mitigar a alucinação, elas geralmente dependem de amostras negativas pré-definidas ou editadas aleatoriamente que não refletem os erros reais do modelo, limitando a eficácia do treinamento. Neste trabalho, propomos uma estrutura de Aprendizado de Preferência Online em Visão e Linguagem (OViP) que constrói dinamicamente dados de treinamento contrastivos com base nas próprias saídas alucinadas do modelo. Ao identificar diferenças semânticas entre pares de respostas amostradas e sintetizar imagens negativas usando um modelo de difusão, o OViP gera sinais de supervisão mais relevantes em tempo real. Esse treinamento orientado por falhas permite o alinhamento adaptativo tanto das preferências textuais quanto visuais. Além disso, refinamos protocolos de avaliação existentes para capturar melhor a relação entre a supressão de alucinações e a expressividade. Experimentos em benchmarks de alucinação e gerais demonstram que o OViP reduz efetivamente as alucinações enquanto preserva as capacidades multimodais essenciais.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination,
often generating content misaligned with visual inputs. While recent approaches
advance multi-modal Direct Preference Optimization (DPO) to mitigate
hallucination, they typically rely on predefined or randomly edited negative
samples that fail to reflect actual model errors, limiting training efficacy.
In this work, we propose an Online Vision-language Preference Learning (OViP)
framework that dynamically constructs contrastive training data based on the
model's own hallucinated outputs. By identifying semantic differences between
sampled response pairs and synthesizing negative images using a diffusion
model, OViP generates more relevant supervision signals in real time. This
failure-driven training enables adaptive alignment of both textual and visual
preferences. Moreover, we refine existing evaluation protocols to better
capture the trade-off between hallucination suppression and expressiveness.
Experiments on hallucination and general benchmarks demonstrate that OViP
effectively reduces hallucinations while preserving core multi-modal
capabilities.