ChatPaper.aiChatPaper

大視覚言語モデルにおける画像への注意促進

Attention Prompting on Image for Large Vision-Language Models

September 25, 2024
著者: Runpeng Yu, Weihao Yu, Xinchao Wang
cs.AI

要旨

大規模言語モデル(LLM)と比較して、大規模ビジョン言語モデル(LVLM)は画像も入力として受け入れることができ、より興味深い新たな能力を示し、さまざまなビジョン言語タスクで印象的なパフォーマンスを示しています。LLMにおけるテキストプロンプティングに触発され、視覚プロンプティングがLVLMの視覚情報の認識能力を向上させるために探求されてきました。しかしながら、従来の視覚プロンプティング技術は、テキストクエリを考慮せずに単に視覚入力を処理しており、モデルがタスクを完了するためのテキスト指示に従う能力が制限されています。この課題を解決するために、本研究では、画像上のアテンションプロンプティングという新しいプロンプティング技術を提案します。これは、単純に元の入力画像にテキストクエリに基づいたアテンションヒートマップを重ねて、LVLMのさまざまなタスクを効果的に強化します。具体的には、CLIPのような補助モデルを使用して、入力画像に対するテキストクエリに依存したアテンションヒートマップを生成します。その後、ヒートマップは単純に元の画像のピクセル値と乗算され、LVLMの実際の入力画像が得られます。さまざまなビジョン言語ベンチマークでの包括的な実験により、当社の技術の効果が検証されています。例えば、画像上のアテンションプロンプティングは、LLaVA-1.5においてMM-VetとLLaVA-Wildのベンチマークでそれぞれ3.8%と2.9%の改善をもたらします。
English
Compared with Large Language Models (LLMs), Large Vision-Language Models (LVLMs) can also accept images as input, thus showcasing more interesting emergent capabilities and demonstrating impressive performance on various vision-language tasks. Motivated by text prompting in LLMs, visual prompting has been explored to enhance LVLMs' capabilities of perceiving visual information. However, previous visual prompting techniques solely process visual inputs without considering text queries, limiting the models' ability to follow text instructions to complete tasks. To fill this gap, in this work, we propose a new prompting technique named Attention Prompting on Image, which just simply overlays a text-query-guided attention heatmap on the original input image and effectively enhances LVLM on various tasks. Specifically, we generate an attention heatmap for the input image dependent on the text query with an auxiliary model like CLIP. Then the heatmap simply multiplies the pixel values of the original image to obtain the actual input image for the LVLM. Extensive experiments on various vison-language benchmarks verify the effectiveness of our technique. For example, Attention Prompting on Image improves LLaVA-1.5 by 3.8% and 2.9% on MM-Vet and LLaVA-Wild benchmarks, respectively.

Summary

AI-Generated Summary

PDF72November 16, 2024