COCONut: Modernizzazione della segmentazione COCO
COCONut: Modernizing COCO Segmentation
April 12, 2024
Autori: Xueqing Deng, Qihang Yu, Peng Wang, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Abstract
Negli ultimi decenni, la comunità della visione artificiale ha assistito a progressi significativi nel riconoscimento visivo, in parte grazie ai progressi nei benchmark dei dataset. In particolare, il consolidato benchmark COCO ha favorito lo sviluppo dei moderni sistemi di rilevamento e segmentazione. Tuttavia, il benchmark di segmentazione COCO ha registrato un miglioramento relativamente lento nell'ultimo decennio. Originariamente dotato di annotazioni poligonali approssimative per le istanze di oggetti, ha gradualmente incorporato annotazioni approssimative basate su superpixel per le regioni di sfondo, che sono state successivamente combinate in modo euristico per produrre annotazioni di segmentazione panottica. Queste annotazioni, eseguite da diversi gruppi di valutatori, hanno portato non solo a maschere di segmentazione approssimative, ma anche a inconsistenze tra i tipi di segmentazione. In questo studio, intraprendiamo una rivalutazione completa delle annotazioni di segmentazione di COCO. Migliorando la qualità delle annotazioni e ampliando il dataset per includere 383K immagini con oltre 5,18 milioni di maschere panottiche, introduciamo COCONut, il COCO Next Universal segmenTation dataset. COCONut armonizza le annotazioni di segmentazione attraverso la segmentazione semantica, istanziale e panottica con maschere di alta qualità accuratamente realizzate, e stabilisce un benchmark solido per tutte le attività di segmentazione. A nostra conoscenza, COCONut rappresenta il primo dataset di segmentazione universale su larga scala, verificato da valutatori umani. Anticipiamo che il rilascio di COCONut contribuirà significativamente alla capacità della comunità di valutare i progressi delle nuove reti neurali.
English
In recent decades, the vision community has witnessed remarkable progress in
visual recognition, partially owing to advancements in dataset benchmarks.
Notably, the established COCO benchmark has propelled the development of modern
detection and segmentation systems. However, the COCO segmentation benchmark
has seen comparatively slow improvement over the last decade. Originally
equipped with coarse polygon annotations for thing instances, it gradually
incorporated coarse superpixel annotations for stuff regions, which were
subsequently heuristically amalgamated to yield panoptic segmentation
annotations. These annotations, executed by different groups of raters, have
resulted not only in coarse segmentation masks but also in inconsistencies
between segmentation types. In this study, we undertake a comprehensive
reevaluation of the COCO segmentation annotations. By enhancing the annotation
quality and expanding the dataset to encompass 383K images with more than 5.18M
panoptic masks, we introduce COCONut, the COCO Next Universal segmenTation
dataset. COCONut harmonizes segmentation annotations across semantic, instance,
and panoptic segmentation with meticulously crafted high-quality masks, and
establishes a robust benchmark for all segmentation tasks. To our knowledge,
COCONut stands as the inaugural large-scale universal segmentation dataset,
verified by human raters. We anticipate that the release of COCONut will
significantly contribute to the community's ability to assess the progress of
novel neural networks.