GroundingSuite: Misurazione del Grounding Pixel Complesso Multi-Granulare
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Autori: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Abstract
Il pixel grounding, che comprende attività come la Segmentazione delle Espressioni Referenziali (RES), ha attirato notevole attenzione grazie al suo enorme potenziale nel colmare il divario tra le modalità visiva e linguistica. Tuttavia, i progressi in questo ambito sono attualmente limitati dalle carenze intrinseche dei dataset esistenti, tra cui un numero ristretto di categorie di oggetti, una diversità testuale insufficiente e una scarsità di annotazioni di alta qualità. Per mitigare queste limitazioni, introduciamo GroundingSuite, che comprende: (1) un framework di annotazione automatica dei dati che sfrutta più agenti di Modelli Visione-Linguaggio (VLM); (2) un dataset di addestramento su larga scala che include 9,56 milioni di espressioni referenziali diverse e le relative segmentazioni; e (3) un benchmark di valutazione accuratamente curato composto da 3.800 immagini. Il dataset di addestramento di GroundingSuite facilita miglioramenti significativi delle prestazioni, consentendo ai modelli addestrati su di esso di raggiungere risultati all'avanguardia. Nello specifico, un cIoU di 68,9 su gRefCOCO e un gIoU di 55,3 su RefCOCOm. Inoltre, il framework di annotazione di GroundingSuite dimostra un'efficienza superiore rispetto al metodo di annotazione dei dati attualmente leader, ovvero 4,5 volte più veloce del GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.