COCONut-PanCap: Segmentação Panóptica Conjunta e Legendas Fundamentadas para Compreensão e Geração Detalhadas.
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation
February 4, 2025
Autores: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Resumo
Este artigo apresenta o conjunto de dados COCONut-PanCap, criado para aprimorar a segmentação panóptica e a geração de legendas de imagens fundamentadas. Construído a partir do conjunto de dados COCO com máscaras panópticas avançadas COCONut, este conjunto de dados tem como objetivo superar as limitações nos conjuntos de dados imagem-texto existentes que frequentemente carecem de descrições detalhadas e abrangentes da cena. O conjunto de dados COCONut-PanCap incorpora legendas em nível de região detalhadas, fundamentadas em máscaras de segmentação panóptica, garantindo consistência e melhorando o detalhamento das legendas geradas. Através de descrições densamente anotadas e editadas por humanos, o COCONut-PanCap apoia o aprimoramento do treinamento de modelos visão-linguagem (VLMs) para compreensão de imagens e modelos generativos para tarefas de texto-para-imagem. Resultados experimentais demonstram que o COCONut-PanCap melhora significativamente o desempenho em tarefas de compreensão e geração, oferecendo benefícios complementares aos conjuntos de dados em grande escala. Este conjunto de dados estabelece um novo referencial para avaliar modelos em tarefas conjuntas de segmentação panóptica e geração de legendas fundamentadas, abordando a necessidade de anotações imagem-texto detalhadas e de alta qualidade em aprendizado multimodal.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic
segmentation and grounded image captioning. Building upon the COCO dataset with
advanced COCONut panoptic masks, this dataset aims to overcome limitations in
existing image-text datasets that often lack detailed, scene-comprehensive
descriptions. The COCONut-PanCap dataset incorporates fine-grained,
region-level captions grounded in panoptic segmentation masks, ensuring
consistency and improving the detail of generated captions. Through
human-edited, densely annotated descriptions, COCONut-PanCap supports improved
training of vision-language models (VLMs) for image understanding and
generative models for text-to-image tasks. Experimental results demonstrate
that COCONut-PanCap significantly boosts performance across understanding and
generation tasks, offering complementary benefits to large-scale datasets. This
dataset sets a new benchmark for evaluating models on joint panoptic
segmentation and grounded captioning tasks, addressing the need for
high-quality, detailed image-text annotations in multi-modal learning.Summary
AI-Generated Summary