Promoção de Atenção em Imagens para Modelos de Grande Escala de Visão e Linguagem

Resumo

Comparados com os Modelos de Linguagem Grandes (LLMs), os Modelos de Visão-Linguagem Grandes (LVLMs) também podem aceitar imagens como entrada, exibindo assim capacidades emergentes mais interessantes e demonstrando um desempenho impressionante em várias tarefas de visão-linguagem. Motivados pela sugestão de texto nos LLMs, a sugestão visual tem sido explorada para aprimorar as capacidades dos LVLMs de perceber informações visuais. No entanto, técnicas anteriores de sugestão visual processam exclusivamente entradas visuais sem considerar consultas de texto, limitando a capacidade dos modelos de seguir instruções de texto para concluir tarefas. Para preencher essa lacuna, neste trabalho, propomos uma nova técnica de sugestão chamada de Sugestão de Atenção na Imagem, que simplesmente sobrepõe um mapa de atenção guiado por consulta de texto na imagem de entrada original e aprimora efetivamente o LVLM em várias tarefas. Especificamente, geramos um mapa de atenção para a imagem de entrada dependente da consulta de texto com um modelo auxiliar como o CLIP. Em seguida, o mapa de atenção simplesmente multiplica os valores de pixel da imagem original para obter a imagem de entrada real para o LVLM. Experimentos extensivos em diversos benchmarks de visão-linguagem verificam a eficácia de nossa técnica. Por exemplo, a Sugestão de Atenção na Imagem melhora o LLaVA-1.5 em 3.8% e 2.9% nos benchmarks MM-Vet e LLaVA-Wild, respectivamente.

English

Compared with Large Language Models (LLMs), Large Vision-Language Models (LVLMs) can also accept images as input, thus showcasing more interesting emergent capabilities and demonstrating impressive performance on various vision-language tasks. Motivated by text prompting in LLMs, visual prompting has been explored to enhance LVLMs' capabilities of perceiving visual information. However, previous visual prompting techniques solely process visual inputs without considering text queries, limiting the models' ability to follow text instructions to complete tasks. To fill this gap, in this work, we propose a new prompting technique named Attention Prompting on Image, which just simply overlays a text-query-guided attention heatmap on the original input image and effectively enhances LVLM on various tasks. Specifically, we generate an attention heatmap for the input image dependent on the text query with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel values of the original image to obtain the actual input image for the LVLM. Extensive experiments on various vison-language benchmarks verify the effectiveness of our technique. For example, Attention Prompting on Image improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks, respectively.

Promoção de Atenção em Imagens para Modelos de Grande Escala de Visão e Linguagem

Attention Prompting on Image for Large Vision-Language Models

Resumo

Support