Captioning Basato su Grafi: Migliorare le Descrizioni Visive attraverso l'Interconnessione di Caption di Regioni
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
Autori: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
Abstract
Gli esseri umani descrivono scene complesse con composizionalità, utilizzando descrizioni testuali semplici arricchite con collegamenti e relazioni. Sebbene la ricerca visione-linguaggio abbia mirato a sviluppare modelli con capacità di comprensione composizionale, ciò non si riflette ancora nei dataset esistenti che, per la maggior parte, continuano a utilizzare testo semplice per descrivere le immagini. In questo lavoro, proponiamo una nuova strategia di annotazione, la descrizione basata su grafi (Graph-Based Captioning, GBC), che descrive un'immagine utilizzando una struttura a grafo etichettato, con nodi di vari tipi. I nodi in GBC vengono creati, in una prima fase, utilizzando strumenti di rilevamento di oggetti e descrizione densa annidati ricorsivamente per scoprire e descrivere i nodi delle entità, ulteriormente collegati tra loro in una seconda fase evidenziando, utilizzando nuovi tipi di nodi, composizioni e relazioni tra le entità. Poiché tutti i nodi GBC contengono descrizioni testuali semplici, GBC mantiene la flessibilità tipica del linguaggio naturale, ma può anche codificare informazioni gerarchiche nei suoi archi. Dimostriamo che GBC può essere prodotto automaticamente, utilizzando modelli multimodali LLM preesistenti e modelli di rilevamento a vocabolario aperto, costruendo un nuovo dataset, GBC10M, che raccoglie annotazioni GBC per circa 10 milioni di immagini del dataset CC12M. Utilizziamo GBC10M per mostrare la ricchezza delle descrizioni dei nodi rivelate da GBC, misurata con l'addestramento CLIP. Mostriamo che l'utilizzo delle annotazioni dei nodi GBC — in particolare quelle memorizzate nei nodi di composizione e relazione — comporta un significativo miglioramento delle prestazioni nei modelli downstream rispetto ad altri formati di dataset. Per esplorare ulteriormente le opportunità offerte da GBC, proponiamo anche un nuovo meccanismo di attenzione che può sfruttare l'intero grafo GBC, con risultati sperimentali incoraggianti che mostrano i benefici aggiuntivi derivanti dall'incorporazione della struttura a grafo. I nostri dataset sono rilasciati su https://huggingface.co/graph-based-captions.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.