ChatPaper.aiChatPaper

OViP: Aprendizado Online de Preferências Visuais e Linguísticas

OViP: Online Vision-Language Preference Learning

May 21, 2025
Autores: Shujun Liu, Siyuan Wang, Zejun Li, Jianxiang Wang, Cheng Zeng, Zhongyu Wei
cs.AI

Resumo

Grandes modelos de visão e linguagem (LVLMs) permanecem vulneráveis à alucinação, frequentemente gerando conteúdo desalinhado com as entradas visuais. Embora abordagens recentes avancem na Otimização de Preferência Direta (DPO) multimodal para mitigar a alucinação, elas geralmente dependem de amostras negativas pré-definidas ou editadas aleatoriamente que não refletem os erros reais do modelo, limitando a eficácia do treinamento. Neste trabalho, propomos uma estrutura de Aprendizado de Preferência Online em Visão e Linguagem (OViP) que constrói dinamicamente dados de treinamento contrastivos com base nas próprias saídas alucinadas do modelo. Ao identificar diferenças semânticas entre pares de respostas amostradas e sintetizar imagens negativas usando um modelo de difusão, o OViP gera sinais de supervisão mais relevantes em tempo real. Esse treinamento orientado por falhas permite o alinhamento adaptativo tanto das preferências textuais quanto visuais. Além disso, refinamos protocolos de avaliação existentes para capturar melhor a relação entre a supressão de alucinações e a expressividade. Experimentos em benchmarks de alucinação e gerais demonstram que o OViP reduz efetivamente as alucinações enquanto preserva as capacidades multimodais essenciais.
English
Large vision-language models (LVLMs) remain vulnerable to hallucination, often generating content misaligned with visual inputs. While recent approaches advance multi-modal Direct Preference Optimization (DPO) to mitigate hallucination, they typically rely on predefined or randomly edited negative samples that fail to reflect actual model errors, limiting training efficacy. In this work, we propose an Online Vision-language Preference Learning (OViP) framework that dynamically constructs contrastive training data based on the model's own hallucinated outputs. By identifying semantic differences between sampled response pairs and synthesizing negative images using a diffusion model, OViP generates more relevant supervision signals in real time. This failure-driven training enables adaptive alignment of both textual and visual preferences. Moreover, we refine existing evaluation protocols to better capture the trade-off between hallucination suppression and expressiveness. Experiments on hallucination and general benchmarks demonstrate that OViP effectively reduces hallucinations while preserving core multi-modal capabilities.
PDF92December 14, 2025