ChatPaper.aiChatPaper

Generación de subtítulos basada en grafos: Mejorando descripciones visuales mediante la interconexión de subtítulos de regiones

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

July 9, 2024
Autores: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI

Resumen

Los humanos describen escenas complejas con composicionalidad, utilizando descripciones de texto simples enriquecidas con enlaces y relaciones. Aunque la investigación en visión y lenguaje ha buscado desarrollar modelos con capacidades de comprensión composicional, esto aún no se refleja en los conjuntos de datos existentes que, en su mayoría, todavía utilizan texto plano para describir imágenes. En este trabajo, proponemos una nueva estrategia de anotación, la titulada "graph-based captioning" (GBC), que describe una imagen utilizando una estructura de grafo etiquetado, con nodos de varios tipos. Los nodos en GBC se crean utilizando, en una primera etapa, herramientas de detección de objetos y subtítulos densos anidados de forma recursiva para descubrir y describir nodos de entidad, que luego se vinculan en una segunda etapa resaltando, mediante nuevos tipos de nodos, composiciones y relaciones entre entidades. Dado que todos los nodos de GBC contienen descripciones de texto plano, GBC conserva la flexibilidad encontrada en el lenguaje natural, pero también puede codificar información jerárquica en sus aristas. Demostramos que GBC puede generarse automáticamente, utilizando modelos LLM multimodales listos para usar y modelos de detección de vocabulario abierto, mediante la creación de un nuevo conjunto de datos, GBC10M, que recopila anotaciones de GBC para alrededor de 10 millones de imágenes del conjunto de datos CC12M. Utilizamos GBC10M para mostrar la riqueza de las descripciones de nodos descubiertas por GBC, medida con el entrenamiento de CLIP. Mostramos que el uso de las anotaciones de los nodos de GBC, especialmente aquellos almacenados en nodos de composición y relación, resulta en un impulso significativo en el rendimiento de los modelos posteriores en comparación con otros formatos de conjuntos de datos. Para explorar aún más las oportunidades proporcionadas por GBC, también proponemos un nuevo mecanismo de atención que puede aprovechar todo el grafo de GBC, con resultados experimentales alentadores que muestran los beneficios adicionales de incorporar la estructura del grafo. Nuestros conjuntos de datos se encuentran disponibles en https://huggingface.co/graph-based-captions.
English
Humans describe complex scenes with compositionality, using simple text descriptions enriched with links and relationships. While vision-language research has aimed to develop models with compositional understanding capabilities, this is not reflected yet in existing datasets which, for the most part, still use plain text to describe images. In this work, we propose a new annotation strategy, graph-based captioning (GBC) that describes an image using a labelled graph structure, with nodes of various types. The nodes in GBC are created using, in a first stage, object detection and dense captioning tools nested recursively to uncover and describe entity nodes, further linked together in a second stage by highlighting, using new types of nodes, compositions and relations among entities. Since all GBC nodes hold plain text descriptions, GBC retains the flexibility found in natural language, but can also encode hierarchical information in its edges. We demonstrate that GBC can be produced automatically, using off-the-shelf multimodal LLMs and open-vocabulary detection models, by building a new dataset, GBC10M, gathering GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to showcase the wealth of node captions uncovered by GBC, as measured with CLIP training. We show that using GBC nodes' annotations -- notably those stored in composition and relation nodes -- results in significant performance boost on downstream models when compared to other dataset formats. To further explore the opportunities provided by GBC, we also propose a new attention mechanism that can leverage the entire GBC graph, with encouraging experimental results that show the extra benefits of incorporating the graph structure. Our datasets are released at https://huggingface.co/graph-based-captions.

Summary

AI-Generated Summary

PDF111November 28, 2024