그래프 기반 캡셔닝: 지역 캡션 상호 연결을 통한 시각적 설명 강화
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions
July 9, 2024
저자: Yu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi
cs.AI
초록
인간은 복잡한 장면을 구성성을 활용하여 설명하며, 링크와 관계로 풍부해진 간단한 텍스트 설명을 사용합니다. 비전-언어 연구는 구성적 이해 능력을 갖춘 모델을 개발하는 것을 목표로 해왔지만, 이는 대부분의 기존 데이터셋에서 아직 반영되지 않고 있으며, 여전히 일반 텍스트를 사용하여 이미지를 설명하고 있습니다. 본 연구에서는 다양한 유형의 노드를 가진 레이블 그래프 구조를 사용하여 이미지를 설명하는 새로운 주석 전략인 그래프 기반 캡셔닝(Graph-Based Captioning, GBC)을 제안합니다. GBC의 노드는 첫 번째 단계에서 객체 탐지 및 밀집 캡셔닝 도구를 재귀적으로 중첩하여 엔티티 노드를 발견하고 설명하며, 두 번째 단계에서는 새로운 유형의 노드를 사용하여 엔티티 간의 구성과 관계를 강조함으로써 연결됩니다. 모든 GBC 노드는 일반 텍스트 설명을 포함하고 있기 때문에, GBC는 자연어에서 발견되는 유연성을 유지하면서도 에지에 계층적 정보를 인코딩할 수 있습니다. 우리는 GBC가 오프더셰프 멀티모달 LLM과 오픈-보커블러리 탐지 모델을 사용하여 자동으로 생성될 수 있음을 보여주며, CC12M 데이터셋의 약 1천만 개 이미지에 대한 GBC 주석을 수집한 새로운 데이터셋인 GBC10M을 구축했습니다. 우리는 GBC10M을 사용하여 GBC가 발견한 노드 캡션의 풍부함을 CLIP 훈련을 통해 측정하여 보여줍니다. GBC 노드의 주석, 특히 구성 및 관계 노드에 저장된 주석을 사용하면 다른 데이터셋 형식과 비교할 때 다운스트림 모델에서 상당한 성능 향상을 가져온다는 것을 보여줍니다. 또한, GBC가 제공하는 기회를 더 탐구하기 위해 전체 GBC 그래프를 활용할 수 있는 새로운 어텐션 메커니즘을 제안하며, 그래프 구조를 통합함으로써 얻는 추가적인 이점을 보여주는 고무적인 실험 결과를 제시합니다. 우리의 데이터셋은 https://huggingface.co/graph-based-captions에서 공개됩니다.
English
Humans describe complex scenes with compositionality, using simple text
descriptions enriched with links and relationships. While vision-language
research has aimed to develop models with compositional understanding
capabilities, this is not reflected yet in existing datasets which, for the
most part, still use plain text to describe images. In this work, we propose a
new annotation strategy, graph-based captioning (GBC) that describes an image
using a labelled graph structure, with nodes of various types. The nodes in GBC
are created using, in a first stage, object detection and dense captioning
tools nested recursively to uncover and describe entity nodes, further linked
together in a second stage by highlighting, using new types of nodes,
compositions and relations among entities. Since all GBC nodes hold plain text
descriptions, GBC retains the flexibility found in natural language, but can
also encode hierarchical information in its edges. We demonstrate that GBC can
be produced automatically, using off-the-shelf multimodal LLMs and
open-vocabulary detection models, by building a new dataset, GBC10M, gathering
GBC annotations for about 10M images of the CC12M dataset. We use GBC10M to
showcase the wealth of node captions uncovered by GBC, as measured with CLIP
training. We show that using GBC nodes' annotations -- notably those stored in
composition and relation nodes -- results in significant performance boost on
downstream models when compared to other dataset formats. To further explore
the opportunities provided by GBC, we also propose a new attention mechanism
that can leverage the entire GBC graph, with encouraging experimental results
that show the extra benefits of incorporating the graph structure. Our datasets
are released at https://huggingface.co/graph-based-captions.Summary
AI-Generated Summary