GroundingSuite: Het meten van complexe multi-granulaire pixel-gronding
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Auteurs: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Samenvatting
Pixel grounding, dat taken omvat zoals Referring Expression Segmentation (RES), heeft aanzienlijke aandacht gekregen vanwege het immense potentieel om de kloof tussen visuele en talige modaliteiten te overbruggen. Vooruitgang in dit domein wordt echter momenteel beperkt door tekortkomingen in bestaande datasets, waaronder beperkte objectcategorieën, onvoldoende tekstuele diversiteit en een gebrek aan hoogwaardige annotaties. Om deze beperkingen te verlichten, introduceren we GroundingSuite, dat bestaat uit: (1) een geautomatiseerd data-annotatieframework dat gebruikmaakt van meerdere Vision-Language Model (VLM) agents; (2) een grootschalige trainingsdataset met 9,56 miljoen diverse verwijzingsexpressies en hun corresponderende segmentaties; en (3) een zorgvuldig samengesteld evaluatiebenchmark bestaande uit 3.800 afbeeldingen. De GroundingSuite-trainingsdataset faciliteert aanzienlijke prestatieverbeteringen, waardoor modellen die erop getraind zijn state-of-the-art resultaten kunnen behalen. Specifiek een cIoU van 68,9 op gRefCOCO en een gIoU van 55,3 op RefCOCOm. Bovendien toont het GroundingSuite-annotatieframework superieure efficiëntie in vergelijking met de huidige toonaangevende data-annotatiemethode, namelijk 4,5 keer sneller dan de GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.Summary
AI-Generated Summary