GPT4RoI: 関心領域に基づく大規模言語モデルの指示チューニング
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
July 7, 2023
著者: Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo
cs.AI
要旨
画像-テキストペアを用いた大規模言語モデル(LLM)の指示チューニングは、これまでにない視覚-言語マルチモーダル能力を実現しました。しかし、その視覚-言語アライメントは画像レベルでのみ構築されており、領域レベルのアライメントの欠如が、細粒度のマルチモーダル理解への進展を制限しています。本論文では、関心領域(Region-of-Interest)に基づく指示チューニングを提案します。鍵となる設計は、バウンディングボックスを空間指示の形式として再構成することです。空間指示によって抽出された視覚特徴と言語埋め込みが交互に並んだシーケンスをLLMに入力し、指示チューニング形式に変換された領域-テキストデータで学習します。我々の領域レベル視覚-言語モデル、GPT4RoIは、画像レベルの理解を超えた全く新しい会話型およびインタラクティブな体験をもたらします。(1) 制御性:ユーザーは言語と空間指示の両方を用いてモデルと対話し、質問の詳細レベルを柔軟に調整できます。(2) 能力:我々のモデルは単一領域の空間指示だけでなく、複数領域もサポートします。これにより、詳細な領域キャプションや複雑な領域推論など、より多くの領域レベルマルチモーダル能力が解放されます。(3) 構成性:既存の物体検出器を空間指示プロバイダーとして利用できるため、色、形状、素材、動作、他の物体との関係など、モデルから有益な物体属性を抽出できます。コード、データ、デモはhttps://github.com/jshilong/GPT4RoIで公開されています。
English
Instruction tuning large language model (LLM) on image-text pairs has
achieved unprecedented vision-language multimodal abilities. However, their
vision-language alignments are only built on image-level, the lack of
region-level alignment limits their advancements to fine-grained multimodal
understanding. In this paper, we propose instruction tuning on
region-of-interest. The key design is to reformulate the bounding box as the
format of spatial instruction. The interleaved sequences of visual features
extracted by the spatial instruction and the language embedding are input to
LLM, and trained on the transformed region-text data in instruction tuning
format. Our region-level vision-language model, termed as GPT4RoI, brings brand
new conversational and interactive experience beyond image-level understanding.
(1) Controllability: Users can interact with our model by both language and
spatial instructions to flexibly adjust the detail level of the question. (2)
Capacities: Our model supports not only single-region spatial instruction but
also multi-region. This unlocks more region-level multimodal capacities such as
detailed region caption and complex region reasoning. (3) Composition: Any
off-the-shelf object detector can be a spatial instruction provider so as to
mine informative object attributes from our model, like color, shape, material,
action, relation to other objects, etc. The code, data, and demo can be found
at https://github.com/jshilong/GPT4RoI.