COCONet-PanCap: Совместная паноптическая сегментация и обоснованные подписи для детального понимания и генерации
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation
February 4, 2025
Авторы: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Аннотация
Данный документ представляет датасет COCONut-PanCap, созданный для улучшения паноптической сегментации и основанного на изображениях описания. На основе набора данных COCO с усовершенствованными паноптическими масками COCONut, этот датасет направлен на преодоление ограничений существующих наборов данных изображений и текста, которые часто не содержат подробных описаний, охватывающих сцену полностью. Датасет COCONut-PanCap включает детализированные описания на уровне регионов, основанные на масках паноптической сегментации, обеспечивая последовательность и улучшая детализацию сгенерированных описаний. Через человечески отредактированные, плотно аннотированные описания COCONut-PanCap поддерживает улучшенное обучение моделей видео-языкового понимания (VLM) для понимания изображений и генеративных моделей для задач текст-изображение. Экспериментальные результаты демонстрируют, что COCONut-PanCap значительно повышает производительность в задачах понимания и генерации, предлагая дополнительные преимущества по сравнению с масштабными наборами данных. Этот датасет устанавливает новый стандарт для оценки моделей в совместных задачах паноптической сегментации и основанного на изображениях описания, решая потребность в высококачественных детализированных аннотациях изображений и текста в мульти-модальном обучении.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic
segmentation and grounded image captioning. Building upon the COCO dataset with
advanced COCONut panoptic masks, this dataset aims to overcome limitations in
existing image-text datasets that often lack detailed, scene-comprehensive
descriptions. The COCONut-PanCap dataset incorporates fine-grained,
region-level captions grounded in panoptic segmentation masks, ensuring
consistency and improving the detail of generated captions. Through
human-edited, densely annotated descriptions, COCONut-PanCap supports improved
training of vision-language models (VLMs) for image understanding and
generative models for text-to-image tasks. Experimental results demonstrate
that COCONut-PanCap significantly boosts performance across understanding and
generation tasks, offering complementary benefits to large-scale datasets. This
dataset sets a new benchmark for evaluating models on joint panoptic
segmentation and grounded captioning tasks, addressing the need for
high-quality, detailed image-text annotations in multi-modal learning.Summary
AI-Generated Summary