Legenda Baseada em Gráficos: Melhorando Descrições Visuais por Interconectar Legendas de Regiões
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
Autores: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
Resumo
Os humanos descrevem cenas complexas com composicionalidade, utilizando descrições de texto simples enriquecidas com links e relacionamentos. Enquanto a pesquisa em visão e linguagem tem como objetivo desenvolver modelos com capacidades de compreensão composicional, isso ainda não é refletido nos conjuntos de dados existentes, que, em sua maioria, ainda usam texto simples para descrever imagens. Neste trabalho, propomos uma nova estratégia de anotação, a legenda baseada em grafo (GBC), que descreve uma imagem usando uma estrutura de grafo rotulada, com nós de vários tipos. Os nós em GBC são criados usando, em uma primeira etapa, ferramentas de detecção de objetos e legendas densas aninhadas recursivamente para descobrir e descrever nós de entidades, posteriormente vinculados em uma segunda etapa destacando, por meio de novos tipos de nós, composições e relações entre entidades. Uma vez que todos os nós do GBC contêm descrições de texto simples, o GBC mantém a flexibilidade encontrada na linguagem natural, mas também pode codificar informações hierárquicas em suas arestas. Demonstramos que o GBC pode ser produzido automaticamente, utilizando modelos LLM multimodais prontos para uso e modelos de detecção de vocabulário aberto, construindo um novo conjunto de dados, GBC10M, reunindo anotações do GBC para cerca de 10 milhões de imagens do conjunto de dados CC12M. Utilizamos o GBC10M para mostrar a riqueza de legendas de nós descobertas pelo GBC, conforme medido com o treinamento CLIP. Mostramos que o uso das anotações dos nós do GBC - especialmente aqueles armazenados nos nós de composição e relação - resulta em um impulso significativo no desempenho de modelos subsequentes quando comparado a outros formatos de conjunto de dados. Para explorar ainda mais as oportunidades fornecidas pelo GBC, também propomos um novo mecanismo de atenção que pode aproveitar todo o grafo do GBC, com resultados experimentais encorajadores que mostram os benefícios adicionais da incorporação da estrutura do grafo. Nossos conjuntos de dados estão disponíveis em https://huggingface.co/graph-based-captions.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.