Aufmerksamkeitslenkung auf Bildern für große Vision-Language-Modelle
Attention Prompting on Image for Large Vision-Language Models
September 25, 2024
Autoren: Runpeng Yu, Weihao Yu, Xinchao Wang
cs.AI
Zusammenfassung
Im Vergleich zu Großen Sprachmodellen (LLMs) können Große Bild-Sprach-Modelle (LVLMs) auch Bilder als Eingabe akzeptieren, was interessantere emergente Fähigkeiten zeigt und beeindruckende Leistungen bei verschiedenen Bild-Sprach-Aufgaben demonstriert. Angeregt durch Textvorgaben in LLMs wurde die visuelle Vorgabe erforscht, um die Fähigkeiten von LVLMs zur Wahrnehmung visueller Informationen zu verbessern. Bisherige visuelle Vorgabetechniken verarbeiten jedoch ausschließlich visuelle Eingaben, ohne Textabfragen zu berücksichtigen, was die Fähigkeit der Modelle einschränkt, Textanweisungen zur Durchführung von Aufgaben zu befolgen. Um diese Lücke zu schließen, schlagen wir in dieser Arbeit eine neue Vorgabetechnik namens Aufmerksamkeitsvorgabe auf Bildern vor, die einfach eine textabfragegesteuerte Aufmerksamkeits-Heatmap über das ursprüngliche Eingabebild legt und LVLMs effektiv bei verschiedenen Aufgaben verbessert. Konkret generieren wir eine Aufmerksamkeits-Heatmap für das Eingabebild abhängig von der Textabfrage mit einem Hilfsmodell wie CLIP. Dann multipliziert die Heatmap einfach die Pixelwerte des Originalbildes, um das tatsächliche Eingabebild für das LVLM zu erhalten. Umfangreiche Experimente an verschiedenen Bild-Sprach-Benchmarks bestätigen die Wirksamkeit unserer Technik. Beispielsweise verbessert die Aufmerksamkeitsvorgabe auf Bildern LLaVA-1.5 um 3,8 % bzw. 2,9 % auf den MM-Vet- und LLaVA-Wild-Benchmarks.
English
Compared with Large Language Models (LLMs), Large Vision-Language Models
(LVLMs) can also accept images as input, thus showcasing more interesting
emergent capabilities and demonstrating impressive performance on various
vision-language tasks. Motivated by text prompting in LLMs, visual prompting
has been explored to enhance LVLMs' capabilities of perceiving visual
information. However, previous visual prompting techniques solely process
visual inputs without considering text queries, limiting the models' ability to
follow text instructions to complete tasks. To fill this gap, in this work, we
propose a new prompting technique named Attention Prompting on Image, which
just simply overlays a text-query-guided attention heatmap on the original
input image and effectively enhances LVLM on various tasks. Specifically, we
generate an attention heatmap for the input image dependent on the text query
with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel
values of the original image to obtain the actual input image for the LVLM.
Extensive experiments on various vison-language benchmarks verify the
effectiveness of our technique. For example, Attention Prompting on Image
improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks,
respectively.Summary
AI-Generated Summary