ChatPaper.aiChatPaper

COCONut-PanCap: Segmentación Panóptica Conjunta y Leyendas Fundamentadas para una Comprensión y Generación Detalladas

COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

February 4, 2025
Autores: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Resumen

Este documento presenta el conjunto de datos COCONut-PanCap, creado para mejorar la segmentación panóptica y el subtitulado de imágenes fundamentado. Basándose en el conjunto de datos COCO con máscaras panópticas avanzadas de COCONut, este conjunto de datos tiene como objetivo superar las limitaciones en los conjuntos de datos imagen-texto existentes que a menudo carecen de descripciones detalladas y completas de la escena. El conjunto de datos COCONut-PanCap incorpora subtítulos a nivel de región detallados, fundamentados en máscaras de segmentación panóptica, asegurando consistencia y mejorando el detalle de los subtítulos generados. A través de descripciones densamente anotadas y editadas por humanos, COCONut-PanCap respalda el mejor entrenamiento de modelos de visión-lenguaje (VLMs) para la comprensión de imágenes y modelos generativos para tareas de texto a imagen. Los resultados experimentales demuestran que COCONut-PanCap mejora significativamente el rendimiento en tareas de comprensión y generación, ofreciendo beneficios complementarios a conjuntos de datos a gran escala. Este conjunto de datos establece un nuevo punto de referencia para evaluar modelos en tareas conjuntas de segmentación panóptica y subtitulado fundamentado, abordando la necesidad de anotaciones detalladas y de alta calidad de imagen-texto en el aprendizaje multimodal.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic segmentation and grounded image captioning. Building upon the COCO dataset with advanced COCONut panoptic masks, this dataset aims to overcome limitations in existing image-text datasets that often lack detailed, scene-comprehensive descriptions. The COCONut-PanCap dataset incorporates fine-grained, region-level captions grounded in panoptic segmentation masks, ensuring consistency and improving the detail of generated captions. Through human-edited, densely annotated descriptions, COCONut-PanCap supports improved training of vision-language models (VLMs) for image understanding and generative models for text-to-image tasks. Experimental results demonstrate that COCONut-PanCap significantly boosts performance across understanding and generation tasks, offering complementary benefits to large-scale datasets. This dataset sets a new benchmark for evaluating models on joint panoptic segmentation and grounded captioning tasks, addressing the need for high-quality, detailed image-text annotations in multi-modal learning.

Summary

AI-Generated Summary

PDF102February 5, 2025