Génération de légendes basée sur les graphes : Amélioration des descriptions visuelles par l'interconnexion des légendes de régions
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
Auteurs: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
Résumé
Les humains décrivent des scènes complexes avec une approche compositionnelle, utilisant des descriptions textuelles simples enrichies de liens et de relations. Bien que la recherche en vision-langage vise à développer des modèles dotés de capacités de compréhension compositionnelle, cela ne se reflète pas encore dans les jeux de données existants qui, pour la plupart, utilisent encore du texte brut pour décrire les images. Dans ce travail, nous proposons une nouvelle stratégie d'annotation, la légende basée sur des graphes (GBC), qui décrit une image en utilisant une structure de graphe étiquetée, avec des nœuds de différents types. Les nœuds dans GBC sont créés en utilisant, dans un premier temps, des outils de détection d'objets et de légendage dense imbriqués de manière récursive pour découvrir et décrire les nœuds d'entités, puis reliés ensemble dans un second temps en mettant en évidence, à l'aide de nouveaux types de nœuds, les compositions et les relations entre les entités. Comme tous les nœuds GBC contiennent des descriptions en texte brut, GBC conserve la flexibilité du langage naturel, mais peut également encoder des informations hiérarchiques dans ses arêtes. Nous démontrons que GBC peut être produit automatiquement, en utilisant des modèles LLM multimodaux prêts à l'emploi et des modèles de détection à vocabulaire ouvert, en construisant un nouveau jeu de données, GBC10M, rassemblant des annotations GBC pour environ 10 millions d'images du jeu de données CC12M. Nous utilisons GBC10M pour illustrer la richesse des légendes de nœuds découvertes par GBC, mesurée avec l'entraînement CLIP. Nous montrons que l'utilisation des annotations des nœuds GBC -- notamment celles stockées dans les nœuds de composition et de relation -- entraîne une amélioration significative des performances des modèles en aval par rapport à d'autres formats de jeux de données. Pour explorer davantage les opportunités offertes par GBC, nous proposons également un nouveau mécanisme d'attention qui peut exploiter l'intégralité du graphe GBC, avec des résultats expérimentaux encourageants qui montrent les avantages supplémentaires de l'incorporation de la structure de graphe. Nos jeux de données sont disponibles à l'adresse https://huggingface.co/graph-based-captions.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.Summary
AI-Generated Summary