COCONet-PanCap : Segmentation panoptique conjointe et légendes ancrées pour une compréhension et une génération fines.

papers.abstract

Cet article présente l'ensemble de données COCONut-PanCap, créé pour améliorer la segmentation panoptique et la génération de légendes d'images ancrées. En s'appuyant sur l'ensemble de données COCO avec des masques panoptiques avancés COCONut, cet ensemble de données vise à surmonter les limitations des ensembles de données image-texte existants qui manquent souvent de descriptions détaillées et globales de la scène. L'ensemble de données COCONut-PanCap intègre des légendes au niveau des régions, fines et ancrées dans des masques de segmentation panoptique, garantissant ainsi la cohérence et améliorant le niveau de détail des légendes générées. Grâce à des descriptions éditées par des humains et annotées de manière dense, COCONut-PanCap favorise l'amélioration de l'entraînement des modèles vision-langage (VLM) pour la compréhension des images et des modèles génératifs pour les tâches texte-vers-image. Les résultats expérimentaux démontrent que COCONut-PanCap améliore significativement les performances dans les tâches de compréhension et de génération, offrant des avantages complémentaires aux ensembles de données à grande échelle. Cet ensemble de données établit une nouvelle référence pour l'évaluation des modèles sur des tâches conjointes de segmentation panoptique et de légendage ancré, répondant au besoin d'annotations image-texte détaillées et de haute qualité dans l'apprentissage multimodal.

English

This paper introduces the COCONut-PanCap dataset, created to enhance panoptic segmentation and grounded image captioning. Building upon the COCO dataset with advanced COCONut panoptic masks, this dataset aims to overcome limitations in existing image-text datasets that often lack detailed, scene-comprehensive descriptions. The COCONut-PanCap dataset incorporates fine-grained, region-level captions grounded in panoptic segmentation masks, ensuring consistency and improving the detail of generated captions. Through human-edited, densely annotated descriptions, COCONut-PanCap supports improved training of vision-language models (VLMs) for image understanding and generative models for text-to-image tasks. Experimental results demonstrate that COCONut-PanCap significantly boosts performance across understanding and generation tasks, offering complementary benefits to large-scale datasets. This dataset sets a new benchmark for evaluating models on joint panoptic segmentation and grounded captioning tasks, addressing the need for high-quality, detailed image-text annotations in multi-modal learning.

COCONet-PanCap : Segmentation panoptique conjointe et légendes ancrées pour une compréhension et une génération fines.

COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

papers.abstract

Support