ChatPaper.aiChatPaper

GroundingSuite: Misurazione del Grounding Pixel Complesso Multi-Granulare

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

March 13, 2025
Autori: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI

Abstract

Il pixel grounding, che comprende attività come la Segmentazione delle Espressioni Referenziali (RES), ha attirato notevole attenzione grazie al suo enorme potenziale nel colmare il divario tra le modalità visiva e linguistica. Tuttavia, i progressi in questo ambito sono attualmente limitati dalle carenze intrinseche dei dataset esistenti, tra cui un numero ristretto di categorie di oggetti, una diversità testuale insufficiente e una scarsità di annotazioni di alta qualità. Per mitigare queste limitazioni, introduciamo GroundingSuite, che comprende: (1) un framework di annotazione automatica dei dati che sfrutta più agenti di Modelli Visione-Linguaggio (VLM); (2) un dataset di addestramento su larga scala che include 9,56 milioni di espressioni referenziali diverse e le relative segmentazioni; e (3) un benchmark di valutazione accuratamente curato composto da 3.800 immagini. Il dataset di addestramento di GroundingSuite facilita miglioramenti significativi delle prestazioni, consentendo ai modelli addestrati su di esso di raggiungere risultati all'avanguardia. Nello specifico, un cIoU di 68,9 su gRefCOCO e un gIoU di 55,3 su RefCOCOm. Inoltre, il framework di annotazione di GroundingSuite dimostra un'efficienza superiore rispetto al metodo di annotazione dei dati attualmente leader, ovvero 4,5 volte più veloce del GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., 4.5 times faster than the GLaMM.
PDF182March 14, 2025