Aufmerksamkeitslenkung auf Bildern für große Vision-Language-Modelle

papers.abstract

Im Vergleich zu Großen Sprachmodellen (LLMs) können Große Bild-Sprach-Modelle (LVLMs) auch Bilder als Eingabe akzeptieren, was interessantere emergente Fähigkeiten zeigt und beeindruckende Leistungen bei verschiedenen Bild-Sprach-Aufgaben demonstriert. Angeregt durch Textvorgaben in LLMs wurde die visuelle Vorgabe erforscht, um die Fähigkeiten von LVLMs zur Wahrnehmung visueller Informationen zu verbessern. Bisherige visuelle Vorgabetechniken verarbeiten jedoch ausschließlich visuelle Eingaben, ohne Textabfragen zu berücksichtigen, was die Fähigkeit der Modelle einschränkt, Textanweisungen zur Durchführung von Aufgaben zu befolgen. Um diese Lücke zu schließen, schlagen wir in dieser Arbeit eine neue Vorgabetechnik namens Aufmerksamkeitsvorgabe auf Bildern vor, die einfach eine textabfragegesteuerte Aufmerksamkeits-Heatmap über das ursprüngliche Eingabebild legt und LVLMs effektiv bei verschiedenen Aufgaben verbessert. Konkret generieren wir eine Aufmerksamkeits-Heatmap für das Eingabebild abhängig von der Textabfrage mit einem Hilfsmodell wie CLIP. Dann multipliziert die Heatmap einfach die Pixelwerte des Originalbildes, um das tatsächliche Eingabebild für das LVLM zu erhalten. Umfangreiche Experimente an verschiedenen Bild-Sprach-Benchmarks bestätigen die Wirksamkeit unserer Technik. Beispielsweise verbessert die Aufmerksamkeitsvorgabe auf Bildern LLaVA-1.5 um 3,8 % bzw. 2,9 % auf den MM-Vet- und LLaVA-Wild-Benchmarks.

English

Compared with Large Language Models (LLMs), Large Vision-Language Models (LVLMs) can also accept images as input, thus showcasing more interesting emergent capabilities and demonstrating impressive performance on various vision-language tasks. Motivated by text prompting in LLMs, visual prompting has been explored to enhance LVLMs' capabilities of perceiving visual information. However, previous visual prompting techniques solely process visual inputs without considering text queries, limiting the models' ability to follow text instructions to complete tasks. To fill this gap, in this work, we propose a new prompting technique named Attention Prompting on Image, which just simply overlays a text-query-guided attention heatmap on the original input image and effectively enhances LVLM on various tasks. Specifically, we generate an attention heatmap for the input image dependent on the text query with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel values of the original image to obtain the actual input image for the LVLM. Extensive experiments on various vison-language benchmarks verify the effectiveness of our technique. For example, Attention Prompting on Image improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks, respectively.

Aufmerksamkeitslenkung auf Bildern für große Vision-Language-Modelle

Attention Prompting on Image for Large Vision-Language Models

papers.abstract

Support