Графовая генерация описаний: улучшение визуальных описаний путем взаимосвязи региональных подписей.
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
Авторы: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
Аннотация
Люди описывают сложные сцены с использованием композициональности, используя простые текстовые описания, обогащенные ссылками и отношениями. В то время как исследования в области визуально-языкового взаимодействия направлены на разработку моделей с композициональными способностями понимания, это пока не находит отражения в существующих наборах данных, которые, в основном, все еще используют простой текст для описания изображений. В данной работе мы предлагаем новую стратегию аннотирования, основанную на графах (Graph-Based Captioning, GBC), которая описывает изображение с использованием помеченной графовой структуры с узлами различных типов. Узлы в GBC создаются с использованием, на первом этапе, инструментов обнаружения объектов и плотного описания, вложенных рекурсивно для выявления и описания узлов сущностей, которые затем, на втором этапе, связываются друг с другом, выделяя, с использованием новых типов узлов, композиции и отношения между сущностями. Поскольку все узлы GBC содержат простые текстовые описания, GBC сохраняет гибкость, присущую естественному языку, но также может кодировать иерархическую информацию в своих ребрах. Мы демонстрируем, что GBC может быть создан автоматически с использованием готовых мультимодальных LLM и моделей обнаружения с открытым словарем, создав новый набор данных, GBC10M, собрав аннотации GBC для около 10 миллионов изображений набора данных CC12M. Мы используем GBC10M для демонстрации богатства текстовых описаний узлов, выявленных GBC, измеренных с использованием обучения CLIP. Мы показываем, что использование аннотаций узлов GBC, особенно тех, хранящихся в узлах композиции и отношений, приводит к значительному улучшению производительности на последующих моделях по сравнению с другими форматами наборов данных. Для дальнейшего изучения возможностей, предоставляемых GBC, мы также предлагаем новый механизм внимания, который может использовать весь граф GBC, с обнадеживающими экспериментальными результатами, показывающими дополнительные преимущества включения графовой структуры. Наши наборы данных доступны по ссылке https://huggingface.co/graph-based-captions.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.