Otimização de Contraste Visual Simétrica: Alinhando Modelos de Visão e Linguagem com Imagens de Contraste Mínimas
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images
February 19, 2025
Autores: Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
cs.AI
Resumo
Estudos recentes mostraram que os Grandes Modelos de Visão e Linguagem (VLMs) tendem a negligenciar o conteúdo das imagens e a depender excessivamente de prioridades do modelo de linguagem, resultando em erros em tarefas visualmente fundamentadas e em alucinações. Nossa hipótese é que esse problema ocorre porque os VLMs existentes não são explicitamente treinados para gerar textos que sejam precisamente fundamentados em detalhes finos das imagens. Para aprimorar o feedback visual durante o treinamento de VLMs, propomos o S-VCO (Otimização Contrastiva Visual Simétrica), um novo objetivo de ajuste fino que direciona o modelo a capturar detalhes visuais importantes e alinhá-los com os tokens de texto correspondentes. Para facilitar ainda mais esse alinhamento detalhado, introduzimos o MVC, um conjunto de dados de pares imagem-texto construído por meio da filtragem e aumento automáticos de dados contrafactuais visuais, desafiando o modelo com casos contrastivos difíceis envolvendo Contrastes Visuais Mínimos. Experimentos mostram que nosso método melhora consistentemente o desempenho dos VLMs em diversos benchmarks que abrangem várias habilidades e domínios, alcançando uma redução de até 22% nas alucinações e ganhos significativos em tarefas centradas na visão e em tarefas gerais. Notavelmente, essas melhorias se tornam cada vez mais pronunciadas em benchmarks com maior dependência visual. Em resumo, o S-VCO oferece um aprimoramento significativo no desempenho de tarefas visualmente dependentes dos VLMs, mantendo ou até mesmo melhorando as habilidades gerais do modelo. Disponibilizamos nosso código em https://s-vco.github.io/.
English
Recent studies have shown that Large Vision-Language Models (VLMs) tend to
neglect image content and over-rely on language-model priors, resulting in
errors in visually grounded tasks and hallucinations. We hypothesize that this
issue arises because existing VLMs are not explicitly trained to generate texts
that are accurately grounded in fine-grained image details. To enhance visual
feedback during VLM training, we propose S-VCO (Symmetrical Visual Contrastive
Optimization), a novel finetuning objective that steers the model toward
capturing important visual details and aligning them with corresponding text
tokens. To further facilitate this detailed alignment, we introduce MVC, a
paired image-text dataset built by automatically filtering and augmenting
visual counterfactual data to challenge the model with hard contrastive cases
involving Minimal Visual Contrasts. Experiments show that our method
consistently improves VLM performance across diverse benchmarks covering
various abilities and domains, achieving up to a 22% reduction in
hallucinations, and significant gains in vision-centric and general tasks.
Notably, these improvements become increasingly pronounced in benchmarks with
higher visual dependency. In short, S-VCO offers a significant enhancement of
VLM's visually-dependent task performance while retaining or even improving the
model's general abilities. We opensource our code at https://s-vco.github.io/Summary
AI-Generated Summary