Estímulo de Atención en Imágenes para Modelos de Visión-Lenguaje de Gran Escala
Attention Prompting on Image for Large Vision-Language Models
September 25, 2024
Autores: Runpeng Yu, Weihao Yu, Xinchao Wang
cs.AI
Resumen
En comparación con los Modelos de Lenguaje Grandes (LLMs), los Modelos de Visión-Lenguaje Grandes (LVLMs) también pueden aceptar imágenes como entrada, mostrando así capacidades emergentes más interesantes y demostrando un rendimiento impresionante en diversas tareas de visión-lenguaje. Motivados por el uso de estímulos de texto en los LLMs, se ha explorado el uso de estímulos visuales para mejorar las capacidades de percepción de información visual de los LVLMs. Sin embargo, las técnicas anteriores de estímulos visuales procesan únicamente entradas visuales sin considerar consultas de texto, lo que limita la capacidad de los modelos para seguir instrucciones de texto para completar tareas. Para llenar esta brecha, en este trabajo proponemos una nueva técnica de estímulo llamada Estímulo de Atención en Imagen, que simplemente superpone un mapa de atención guiado por la consulta de texto en la imagen de entrada original y mejora de manera efectiva el desempeño de LVLM en diversas tareas. Específicamente, generamos un mapa de atención para la imagen de entrada dependiendo de la consulta de texto con un modelo auxiliar como CLIP. Luego, el mapa de atención simplemente multiplica los valores de píxeles de la imagen original para obtener la imagen de entrada real para el LVLM. Experimentos extensos en diversos bancos de pruebas de visión-lenguaje verifican la efectividad de nuestra técnica. Por ejemplo, el Estímulo de Atención en Imagen mejora LLaVA-1.5 en un 3.8% y un 2.9% en los bancos de pruebas MM-Vet y LLaVA-Wild, respectivamente.
English
Compared with Large Language Models (LLMs), Large Vision-Language Models
(LVLMs) can also accept images as input, thus showcasing more interesting
emergent capabilities and demonstrating impressive performance on various
vision-language tasks. Motivated by text prompting in LLMs, visual prompting
has been explored to enhance LVLMs' capabilities of perceiving visual
information. However, previous visual prompting techniques solely process
visual inputs without considering text queries, limiting the models' ability to
follow text instructions to complete tasks. To fill this gap, in this work, we
propose a new prompting technique named Attention Prompting on Image, which
just simply overlays a text-query-guided attention heatmap on the original
input image and effectively enhances LVLM on various tasks. Specifically, we
generate an attention heatmap for the input image dependent on the text query
with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel
values of the original image to obtain the actual input image for the LVLM.
Extensive experiments on various vison-language benchmarks verify the
effectiveness of our technique. For example, Attention Prompting on Image
improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks,
respectively.Summary
AI-Generated Summary