GroundingSuite : Mesure de l'ancrage pixel complexe multi-granulaire
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Auteurs: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Résumé
L'ancrage au niveau des pixels, englobant des tâches telles que la segmentation par expressions référentielles (RES), a suscité un intérêt considérable en raison de son immense potentiel pour combler le fossé entre les modalités visuelles et linguistiques. Cependant, les avancées dans ce domaine sont actuellement limitées par les contraintes inhérentes aux jeux de données existants, notamment un nombre restreint de catégories d'objets, une diversité textuelle insuffisante et une pénurie d'annotations de haute qualité. Pour pallier ces limitations, nous présentons GroundingSuite, qui comprend : (1) un cadre d'annotation de données automatisé exploitant plusieurs agents de modèles vision-langage (VLM) ; (2) un jeu de données d'entraînement à grande échelle comprenant 9,56 millions d'expressions référentielles diverses et leurs segmentations correspondantes ; et (3) un benchmark d'évaluation soigneusement constitué de 3 800 images. Le jeu de données d'entraînement de GroundingSuite facilite des améliorations substantielles des performances, permettant aux modèles qui y sont entraînés d'atteindre des résultats de pointe. Plus précisément, un cIoU de 68,9 sur gRefCOCO et un gIoU de 55,3 sur RefCOCOm. De plus, le cadre d'annotation de GroundingSuite démontre une efficacité supérieure par rapport à la méthode d'annotation de données actuellement dominante, c'est-à-dire 4,5 fois plus rapide que le GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.