COCONet-PanCap: Gezamenlijke Panoptische Segmentatie en Onderbouwde Bijschriften voor Gedetailleerd Begrip en Generatie
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation
February 4, 2025
Auteurs: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Samenvatting
Dit artikel introduceert de COCONut-PanCap dataset, gecreëerd om panoptische segmentatie en op feiten gebaseerde afbeeldingbijschriften te verbeteren. Voortbouwend op de COCO dataset met geavanceerde COCONut panoptische maskers, heeft deze dataset tot doel beperkingen in bestaande afbeelding-tekst datasets te overwinnen die vaak gedetailleerde, allesomvattende beschrijvingen missen. De COCONut-PanCap dataset omvat fijnmazige, op regio-niveau bijschriften gebaseerd op panoptische segmentatie maskers, wat consistentie waarborgt en de gedetailleerdheid van gegenereerde bijschriften verbetert. Door menselijk bewerkte, dicht becommentarieerde beschrijvingen ondersteunt COCONut-PanCap verbeterde training van visie-taal modellen (VLMs) voor beeldbegrip en generatieve modellen voor tekst-naar-afbeelding taken. Experimentele resultaten tonen aan dat COCONut-PanCap de prestaties aanzienlijk verbetert over begrip- en generatietaken, met aanvullende voordelen voor grootschalige datasets. Deze dataset stelt een nieuwe norm voor het evalueren van modellen op gezamenlijke panoptische segmentatie en op feiten gebaseerde bijschrifttaken, waarbij wordt ingegaan op de behoefte aan hoogwaardige, gedetailleerde afbeelding-tekst annotaties in multimodaal leren.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic
segmentation and grounded image captioning. Building upon the COCO dataset with
advanced COCONut panoptic masks, this dataset aims to overcome limitations in
existing image-text datasets that often lack detailed, scene-comprehensive
descriptions. The COCONut-PanCap dataset incorporates fine-grained,
region-level captions grounded in panoptic segmentation masks, ensuring
consistency and improving the detail of generated captions. Through
human-edited, densely annotated descriptions, COCONut-PanCap supports improved
training of vision-language models (VLMs) for image understanding and
generative models for text-to-image tasks. Experimental results demonstrate
that COCONut-PanCap significantly boosts performance across understanding and
generation tasks, offering complementary benefits to large-scale datasets. This
dataset sets a new benchmark for evaluating models on joint panoptic
segmentation and grounded captioning tasks, addressing the need for
high-quality, detailed image-text annotations in multi-modal learning.Summary
AI-Generated Summary