Graphbasierte Bildbeschriftung: Verbesserung visueller Beschreibungen durch die Verknüpfung von Regionsbeschriftungen
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
Autoren: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
Zusammenfassung
Menschen beschreiben komplexe Szenen mit Kompositionalität, indem sie einfache Textbeschreibungen verwenden, die mit Links und Beziehungen angereichert sind. Während die Forschung im Bereich der Vision-Sprache darauf abzielte, Modelle mit Verständnisfähigkeiten für Kompositionalität zu entwickeln, spiegelt sich dies bisher nicht in den bestehenden Datensätzen wider, die größtenteils immer noch einfachen Text zur Beschreibung von Bildern verwenden. In dieser Arbeit schlagen wir eine neue Annotationsstrategie vor, die auf Graphen basiertes Bildbeschreibung (GBC), die ein Bild mithilfe einer beschrifteten Graphenstruktur beschreibt, mit Knoten verschiedener Typen. Die Knoten in GBC werden in einem ersten Schritt mithilfe von Objekterkennungs- und dichten Bildbeschreibungswerkzeugen erstellt, die rekursiv verschachtelt sind, um Entitätsknoten aufzudecken und zu beschreiben, die dann in einem zweiten Schritt durch Hervorheben, unter Verwendung neuer Knotentypen, miteinander verknüpft werden, um Kompositionen und Beziehungen zwischen Entitäten darzustellen. Da alle GBC-Knoten einfache Textbeschreibungen enthalten, behält GBC die Flexibilität der natürlichen Sprache bei, kann aber auch hierarchische Informationen in seinen Kanten codieren. Wir zeigen, dass GBC automatisch erstellt werden kann, indem handelsübliche multimodale LLMs und Open-Vocabulary-Erkennungsmodelle verwendet werden, indem ein neuer Datensatz, GBC10M, erstellt wird, der GBC-Annotationen für etwa 10 Millionen Bilder des CC12M-Datensatzes sammelt. Wir verwenden GBC10M, um den Reichtum der Knotenbeschriftungen aufzudecken, die von GBC erfasst wurden, wie mit dem CLIP-Training gemessen. Wir zeigen, dass die Verwendung von GBC-Knotenannotationen - insbesondere von denen, die in Kompositions- und Beziehungsknoten gespeichert sind - zu einer signifikanten Leistungssteigerung bei nachgelagerten Modellen im Vergleich zu anderen Datensatzformaten führt. Um die Möglichkeiten, die GBC bietet, weiter zu erkunden, schlagen wir auch einen neuen Aufmerksamkeitsmechanismus vor, der den gesamten GBC-Graphen nutzen kann, mit ermutigenden experimentellen Ergebnissen, die die zusätzlichen Vorteile der Einbeziehung der Graphenstruktur zeigen. Unsere Datensätze sind unter https://huggingface.co/graph-based-captions veröffentlicht.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.Summary
AI-Generated Summary