COCONut: Modernizzazione della segmentazione COCO

Abstract

Negli ultimi decenni, la comunità della visione artificiale ha assistito a progressi significativi nel riconoscimento visivo, in parte grazie ai progressi nei benchmark dei dataset. In particolare, il consolidato benchmark COCO ha favorito lo sviluppo dei moderni sistemi di rilevamento e segmentazione. Tuttavia, il benchmark di segmentazione COCO ha registrato un miglioramento relativamente lento nell'ultimo decennio. Originariamente dotato di annotazioni poligonali approssimative per le istanze di oggetti, ha gradualmente incorporato annotazioni approssimative basate su superpixel per le regioni di sfondo, che sono state successivamente combinate in modo euristico per produrre annotazioni di segmentazione panottica. Queste annotazioni, eseguite da diversi gruppi di valutatori, hanno portato non solo a maschere di segmentazione approssimative, ma anche a inconsistenze tra i tipi di segmentazione. In questo studio, intraprendiamo una rivalutazione completa delle annotazioni di segmentazione di COCO. Migliorando la qualità delle annotazioni e ampliando il dataset per includere 383K immagini con oltre 5,18 milioni di maschere panottiche, introduciamo COCONut, il COCO Next Universal segmenTation dataset. COCONut armonizza le annotazioni di segmentazione attraverso la segmentazione semantica, istanziale e panottica con maschere di alta qualità accuratamente realizzate, e stabilisce un benchmark solido per tutte le attività di segmentazione. A nostra conoscenza, COCONut rappresenta il primo dataset di segmentazione universale su larga scala, verificato da valutatori umani. Anticipiamo che il rilascio di COCONut contribuirà significativamente alla capacità della comunità di valutare i progressi delle nuove reti neurali.

English

In recent decades, the vision community has witnessed remarkable progress in visual recognition, partially owing to advancements in dataset benchmarks. Notably, the established COCO benchmark has propelled the development of modern detection and segmentation systems. However, the COCO segmentation benchmark has seen comparatively slow improvement over the last decade. Originally equipped with coarse polygon annotations for thing instances, it gradually incorporated coarse superpixel annotations for stuff regions, which were subsequently heuristically amalgamated to yield panoptic segmentation annotations. These annotations, executed by different groups of raters, have resulted not only in coarse segmentation masks but also in inconsistencies between segmentation types. In this study, we undertake a comprehensive reevaluation of the COCO segmentation annotations. By enhancing the annotation quality and expanding the dataset to encompass 383K images with more than 5.18M panoptic masks, we introduce COCONut, the COCO Next Universal segmenTation dataset. COCONut harmonizes segmentation annotations across semantic, instance, and panoptic segmentation with meticulously crafted high-quality masks, and establishes a robust benchmark for all segmentation tasks. To our knowledge, COCONut stands as the inaugural large-scale universal segmentation dataset, verified by human raters. We anticipate that the release of COCONut will significantly contribute to the community's ability to assess the progress of novel neural networks.

COCONut: Modernizzazione della segmentazione COCO

COCONut: Modernizing COCO Segmentation

Abstract

Support