COCONut-PanCap: Segmentación Panóptica Conjunta y Leyendas Fundamentadas para una Comprensión y Generación Detalladas
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation
February 4, 2025
Autores: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Resumen
Este documento presenta el conjunto de datos COCONut-PanCap, creado para mejorar la segmentación panóptica y el subtitulado de imágenes fundamentado. Basándose en el conjunto de datos COCO con máscaras panópticas avanzadas de COCONut, este conjunto de datos tiene como objetivo superar las limitaciones en los conjuntos de datos imagen-texto existentes que a menudo carecen de descripciones detalladas y completas de la escena. El conjunto de datos COCONut-PanCap incorpora subtítulos a nivel de región detallados, fundamentados en máscaras de segmentación panóptica, asegurando consistencia y mejorando el detalle de los subtítulos generados. A través de descripciones densamente anotadas y editadas por humanos, COCONut-PanCap respalda el mejor entrenamiento de modelos de visión-lenguaje (VLMs) para la comprensión de imágenes y modelos generativos para tareas de texto a imagen. Los resultados experimentales demuestran que COCONut-PanCap mejora significativamente el rendimiento en tareas de comprensión y generación, ofreciendo beneficios complementarios a conjuntos de datos a gran escala. Este conjunto de datos establece un nuevo punto de referencia para evaluar modelos en tareas conjuntas de segmentación panóptica y subtitulado fundamentado, abordando la necesidad de anotaciones detalladas y de alta calidad de imagen-texto en el aprendizaje multimodal.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic
segmentation and grounded image captioning. Building upon the COCO dataset with
advanced COCONut panoptic masks, this dataset aims to overcome limitations in
existing image-text datasets that often lack detailed, scene-comprehensive
descriptions. The COCONut-PanCap dataset incorporates fine-grained,
region-level captions grounded in panoptic segmentation masks, ensuring
consistency and improving the detail of generated captions. Through
human-edited, densely annotated descriptions, COCONut-PanCap supports improved
training of vision-language models (VLMs) for image understanding and
generative models for text-to-image tasks. Experimental results demonstrate
that COCONut-PanCap significantly boosts performance across understanding and
generation tasks, offering complementary benefits to large-scale datasets. This
dataset sets a new benchmark for evaluating models on joint panoptic
segmentation and grounded captioning tasks, addressing the need for
high-quality, detailed image-text annotations in multi-modal learning.Summary
AI-Generated Summary