ChatPaper.aiChatPaper

Otimização de Contraste Visual Simétrica: Alinhando Modelos de Visão e Linguagem com Imagens de Contraste Mínimas

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

February 19, 2025
Autores: Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
cs.AI

Resumo

Estudos recentes mostraram que os Grandes Modelos de Visão e Linguagem (VLMs) tendem a negligenciar o conteúdo das imagens e a depender excessivamente de prioridades do modelo de linguagem, resultando em erros em tarefas visualmente fundamentadas e em alucinações. Nossa hipótese é que esse problema ocorre porque os VLMs existentes não são explicitamente treinados para gerar textos que sejam precisamente fundamentados em detalhes finos das imagens. Para aprimorar o feedback visual durante o treinamento de VLMs, propomos o S-VCO (Otimização Contrastiva Visual Simétrica), um novo objetivo de ajuste fino que direciona o modelo a capturar detalhes visuais importantes e alinhá-los com os tokens de texto correspondentes. Para facilitar ainda mais esse alinhamento detalhado, introduzimos o MVC, um conjunto de dados de pares imagem-texto construído por meio da filtragem e aumento automáticos de dados contrafactuais visuais, desafiando o modelo com casos contrastivos difíceis envolvendo Contrastes Visuais Mínimos. Experimentos mostram que nosso método melhora consistentemente o desempenho dos VLMs em diversos benchmarks que abrangem várias habilidades e domínios, alcançando uma redução de até 22% nas alucinações e ganhos significativos em tarefas centradas na visão e em tarefas gerais. Notavelmente, essas melhorias se tornam cada vez mais pronunciadas em benchmarks com maior dependência visual. Em resumo, o S-VCO oferece um aprimoramento significativo no desempenho de tarefas visualmente dependentes dos VLMs, mantendo ou até mesmo melhorando as habilidades gerais do modelo. Disponibilizamos nosso código em https://s-vco.github.io/.
English
Recent studies have shown that Large Vision-Language Models (VLMs) tend to neglect image content and over-rely on language-model priors, resulting in errors in visually grounded tasks and hallucinations. We hypothesize that this issue arises because existing VLMs are not explicitly trained to generate texts that are accurately grounded in fine-grained image details. To enhance visual feedback during VLM training, we propose S-VCO (Symmetrical Visual Contrastive Optimization), a novel finetuning objective that steers the model toward capturing important visual details and aligning them with corresponding text tokens. To further facilitate this detailed alignment, we introduce MVC, a paired image-text dataset built by automatically filtering and augmenting visual counterfactual data to challenge the model with hard contrastive cases involving Minimal Visual Contrasts. Experiments show that our method consistently improves VLM performance across diverse benchmarks covering various abilities and domains, achieving up to a 22% reduction in hallucinations, and significant gains in vision-centric and general tasks. Notably, these improvements become increasingly pronounced in benchmarks with higher visual dependency. In short, S-VCO offers a significant enhancement of VLM's visually-dependent task performance while retaining or even improving the model's general abilities. We opensource our code at https://s-vco.github.io/

Summary

AI-Generated Summary

PDF42February 21, 2025