Grafiekgebaseerde Onderschriften: Visuele Beschrijvingen Verbeteren door Regio-onderschriften met Elkaar te Verbinden
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
Auteurs: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
Samenvatting
Mensen beschrijven complexe scènes met compositionele vaardigheden, door eenvoudige tekstbeschrijvingen te verrijken met verwijzingen en relaties. Hoewel vision-language-onderzoek ernaar streeft om modellen te ontwikkelen met compositionele begripsvaardigheden, wordt dit nog niet weerspiegeld in bestaande datasets, die voor het grootste deel nog steeds gewone tekst gebruiken om afbeeldingen te beschrijven. In dit werk stellen we een nieuwe annotatiestrategie voor, grafiekgebaseerde bijschriften (Graph-Based Captioning, GBC), die een afbeelding beschrijft met behulp van een gelabelde grafiekstructuur met knooppunten van verschillende typen. De knooppunten in GBC worden in een eerste fase gemaakt met behulp van objectdetectie en dense captioning-tools, die recursief worden ingezet om entiteitsknooppunten te ontdekken en te beschrijven. In een tweede fase worden deze verder aan elkaar gekoppeld door, met behulp van nieuwe typen knooppunten, composities en relaties tussen entiteiten te benadrukken. Omdat alle GBC-knooppunten gewone tekstbeschrijvingen bevatten, behoudt GBC de flexibiliteit van natuurlijke taal, maar kan het ook hiërarchische informatie coderen in zijn verbindingen. We demonstreren dat GBC automatisch kan worden geproduceerd met behulp van kant-en-klare multimodale LLM's en open-vocabulary detectiemodellen, door een nieuwe dataset, GBC10M, te bouwen die GBC-annotaties verzamelt voor ongeveer 10 miljoen afbeeldingen uit de CC12M-dataset. We gebruiken GBC10M om de rijkdom aan knooppuntbijschriften die door GBC wordt onthuld, te illustreren, zoals gemeten met CLIP-training. We laten zien dat het gebruik van GBC-knooppuntannotaties – met name die in compositie- en relatieknooppunten – resulteert in een significante prestatieverbetering van downstreammodellen in vergelijking met andere datasetformaten. Om de mogelijkheden van GBC verder te verkennen, stellen we ook een nieuw aandachtmechanisme voor dat de volledige GBC-grafiek kan benutten, met bemoedigende experimentele resultaten die de extra voordelen van het incorporeren van de grafiekstructuur aantonen. Onze datasets zijn vrijgegeven op https://huggingface.co/graph-based-captions.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.