ChatPaper.aiChatPaper

GroundingSuite: Het meten van complexe multi-granulaire pixel-gronding

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

March 13, 2025
Auteurs: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI

Samenvatting

Pixel grounding, dat taken omvat zoals Referring Expression Segmentation (RES), heeft aanzienlijke aandacht gekregen vanwege het immense potentieel om de kloof tussen visuele en talige modaliteiten te overbruggen. Vooruitgang in dit domein wordt echter momenteel beperkt door tekortkomingen in bestaande datasets, waaronder beperkte objectcategorieën, onvoldoende tekstuele diversiteit en een gebrek aan hoogwaardige annotaties. Om deze beperkingen te verlichten, introduceren we GroundingSuite, dat bestaat uit: (1) een geautomatiseerd data-annotatieframework dat gebruikmaakt van meerdere Vision-Language Model (VLM) agents; (2) een grootschalige trainingsdataset met 9,56 miljoen diverse verwijzingsexpressies en hun corresponderende segmentaties; en (3) een zorgvuldig samengesteld evaluatiebenchmark bestaande uit 3.800 afbeeldingen. De GroundingSuite-trainingsdataset faciliteert aanzienlijke prestatieverbeteringen, waardoor modellen die erop getraind zijn state-of-the-art resultaten kunnen behalen. Specifiek een cIoU van 68,9 op gRefCOCO en een gIoU van 55,3 op RefCOCOm. Bovendien toont het GroundingSuite-annotatieframework superieure efficiëntie in vergelijking met de huidige toonaangevende data-annotatiemethode, namelijk 4,5 keer sneller dan de GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., 4.5 times faster than the GLaMM.

Summary

AI-Generated Summary

PDF182March 14, 2025