Promoção de Atenção em Imagens para Modelos de Grande Escala de Visão e Linguagem
Attention Prompting on Image for Large Vision-Language Models
September 25, 2024
Autores: Runpeng Yu, Weihao Yu, Xinchao Wang
cs.AI
Resumo
Comparados com os Modelos de Linguagem Grandes (LLMs), os Modelos de Visão-Linguagem Grandes (LVLMs) também podem aceitar imagens como entrada, exibindo assim capacidades emergentes mais interessantes e demonstrando um desempenho impressionante em várias tarefas de visão-linguagem. Motivados pela sugestão de texto nos LLMs, a sugestão visual tem sido explorada para aprimorar as capacidades dos LVLMs de perceber informações visuais. No entanto, técnicas anteriores de sugestão visual processam exclusivamente entradas visuais sem considerar consultas de texto, limitando a capacidade dos modelos de seguir instruções de texto para concluir tarefas. Para preencher essa lacuna, neste trabalho, propomos uma nova técnica de sugestão chamada de Sugestão de Atenção na Imagem, que simplesmente sobrepõe um mapa de atenção guiado por consulta de texto na imagem de entrada original e aprimora efetivamente o LVLM em várias tarefas. Especificamente, geramos um mapa de atenção para a imagem de entrada dependente da consulta de texto com um modelo auxiliar como o CLIP. Em seguida, o mapa de atenção simplesmente multiplica os valores de pixel da imagem original para obter a imagem de entrada real para o LVLM. Experimentos extensivos em diversos benchmarks de visão-linguagem verificam a eficácia de nossa técnica. Por exemplo, a Sugestão de Atenção na Imagem melhora o LLaVA-1.5 em 3.8% e 2.9% nos benchmarks MM-Vet e LLaVA-Wild, respectivamente.
English
Compared with Large Language Models (LLMs), Large Vision-Language Models
(LVLMs) can also accept images as input, thus showcasing more interesting
emergent capabilities and demonstrating impressive performance on various
vision-language tasks. Motivated by text prompting in LLMs, visual prompting
has been explored to enhance LVLMs' capabilities of perceiving visual
information. However, previous visual prompting techniques solely process
visual inputs without considering text queries, limiting the models' ability to
follow text instructions to complete tasks. To fill this gap, in this work, we
propose a new prompting technique named Attention Prompting on Image, which
just simply overlays a text-query-guided attention heatmap on the original
input image and effectively enhances LVLM on various tasks. Specifically, we
generate an attention heatmap for the input image dependent on the text query
with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel
values of the original image to obtain the actual input image for the LVLM.
Extensive experiments on various vison-language benchmarks verify the
effectiveness of our technique. For example, Attention Prompting on Image
improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks,
respectively.Summary
AI-Generated Summary