ChatPaper.aiChatPaper

COCONet-PanCap: Gezamenlijke Panoptische Segmentatie en Onderbouwde Bijschriften voor Gedetailleerd Begrip en Generatie

COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

February 4, 2025
Auteurs: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Samenvatting

Dit artikel introduceert de COCONut-PanCap dataset, gecreëerd om panoptische segmentatie en op feiten gebaseerde afbeeldingbijschriften te verbeteren. Voortbouwend op de COCO dataset met geavanceerde COCONut panoptische maskers, heeft deze dataset tot doel beperkingen in bestaande afbeelding-tekst datasets te overwinnen die vaak gedetailleerde, allesomvattende beschrijvingen missen. De COCONut-PanCap dataset omvat fijnmazige, op regio-niveau bijschriften gebaseerd op panoptische segmentatie maskers, wat consistentie waarborgt en de gedetailleerdheid van gegenereerde bijschriften verbetert. Door menselijk bewerkte, dicht becommentarieerde beschrijvingen ondersteunt COCONut-PanCap verbeterde training van visie-taal modellen (VLMs) voor beeldbegrip en generatieve modellen voor tekst-naar-afbeelding taken. Experimentele resultaten tonen aan dat COCONut-PanCap de prestaties aanzienlijk verbetert over begrip- en generatietaken, met aanvullende voordelen voor grootschalige datasets. Deze dataset stelt een nieuwe norm voor het evalueren van modellen op gezamenlijke panoptische segmentatie en op feiten gebaseerde bijschrifttaken, waarbij wordt ingegaan op de behoefte aan hoogwaardige, gedetailleerde afbeelding-tekst annotaties in multimodaal leren.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic segmentation and grounded image captioning. Building upon the COCO dataset with advanced COCONut panoptic masks, this dataset aims to overcome limitations in existing image-text datasets that often lack detailed, scene-comprehensive descriptions. The COCONut-PanCap dataset incorporates fine-grained, region-level captions grounded in panoptic segmentation masks, ensuring consistency and improving the detail of generated captions. Through human-edited, densely annotated descriptions, COCONut-PanCap supports improved training of vision-language models (VLMs) for image understanding and generative models for text-to-image tasks. Experimental results demonstrate that COCONut-PanCap significantly boosts performance across understanding and generation tasks, offering complementary benefits to large-scale datasets. This dataset sets a new benchmark for evaluating models on joint panoptic segmentation and grounded captioning tasks, addressing the need for high-quality, detailed image-text annotations in multi-modal learning.

Summary

AI-Generated Summary

PDF102February 5, 2025