COCONet-PanCap : Segmentation panoptique conjointe et légendes ancrées pour une compréhension et une génération fines.
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation
February 4, 2025
Auteurs: Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Résumé
Cet article présente l'ensemble de données COCONut-PanCap, créé pour améliorer la segmentation panoptique et la génération de légendes d'images ancrées. En s'appuyant sur l'ensemble de données COCO avec des masques panoptiques avancés COCONut, cet ensemble de données vise à surmonter les limitations des ensembles de données image-texte existants qui manquent souvent de descriptions détaillées et globales de la scène. L'ensemble de données COCONut-PanCap intègre des légendes au niveau des régions, fines et ancrées dans des masques de segmentation panoptique, garantissant ainsi la cohérence et améliorant le niveau de détail des légendes générées. Grâce à des descriptions éditées par des humains et annotées de manière dense, COCONut-PanCap favorise l'amélioration de l'entraînement des modèles vision-langage (VLM) pour la compréhension des images et des modèles génératifs pour les tâches texte-vers-image. Les résultats expérimentaux démontrent que COCONut-PanCap améliore significativement les performances dans les tâches de compréhension et de génération, offrant des avantages complémentaires aux ensembles de données à grande échelle. Cet ensemble de données établit une nouvelle référence pour l'évaluation des modèles sur des tâches conjointes de segmentation panoptique et de légendage ancré, répondant au besoin d'annotations image-texte détaillées et de haute qualité dans l'apprentissage multimodal.
English
This paper introduces the COCONut-PanCap dataset, created to enhance panoptic
segmentation and grounded image captioning. Building upon the COCO dataset with
advanced COCONut panoptic masks, this dataset aims to overcome limitations in
existing image-text datasets that often lack detailed, scene-comprehensive
descriptions. The COCONut-PanCap dataset incorporates fine-grained,
region-level captions grounded in panoptic segmentation masks, ensuring
consistency and improving the detail of generated captions. Through
human-edited, densely annotated descriptions, COCONut-PanCap supports improved
training of vision-language models (VLMs) for image understanding and
generative models for text-to-image tasks. Experimental results demonstrate
that COCONut-PanCap significantly boosts performance across understanding and
generation tasks, offering complementary benefits to large-scale datasets. This
dataset sets a new benchmark for evaluating models on joint panoptic
segmentation and grounded captioning tasks, addressing the need for
high-quality, detailed image-text annotations in multi-modal learning.Summary
AI-Generated Summary