グラフベースキャプショニング:領域キャプションを相互接続して視覚的記述を強化する
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
著者: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
要旨
人間は、複雑なシーンを構成性を持って記述し、リンクや関係性で豊かにされた簡潔なテキスト記述を用います。視覚言語研究では、構成性理解能力を持つモデルの開発を目指してきましたが、既存のデータセットの大部分は依然として画像をプレーンテキストで記述しており、この点が反映されていません。本研究では、ラベル付きグラフ構造を用いて画像を記述する新しいアノテーション戦略、グラフベースキャプショニング(GBC)を提案します。GBCのノードは、第一段階で物体検出と密なキャプショニングツールを再帰的にネストしてエンティティノードを発見・記述し、第二段階で新しいタイプのノードを用いてエンティティ間の構成と関係を強調することでリンクされます。GBCのすべてのノードはプレーンテキスト記述を保持しているため、自然言語の柔軟性を維持しつつ、エッジに階層情報をエンコードすることができます。GBCは、既存のマルチモーダルLLMとオープン語彙検出モデルを用いて自動生成可能であることを示し、CC12Mデータセットの約1000万枚の画像に対してGBCアノテーションを収集した新しいデータセットGBC10Mを構築しました。GBC10Mを用いて、CLIPトレーニングで測定されたGBCによって発見されたノードキャプションの豊富さを実証します。GBCノードのアノテーション、特に構成と関係ノードに保存されたものを使用すると、他のデータセット形式と比較して下流モデルのパフォーマンスが大幅に向上することを示します。さらに、GBCが提供する機会を探るため、GBCグラフ全体を活用できる新しいアテンションメカニズムを提案し、グラフ構造を組み込むことの追加的な利点を示す有望な実験結果を得ました。私たちのデータセットはhttps://huggingface.co/graph-based-captionsで公開されています。
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.Summary
AI-Generated Summary