GroundingSuite: Medición de la Fundamentación de Píxeles Complejos y Multigranulares
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Autores: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Resumen
La segmentación basada en píxeles, que abarca tareas como la Segmentación de Expresiones Referenciales (RES), ha captado una atención considerable debido a su inmenso potencial para cerrar la brecha entre las modalidades de visión y lenguaje. Sin embargo, los avances en este dominio se ven actualmente limitados por las restricciones inherentes a los conjuntos de datos existentes, incluyendo categorías de objetos limitadas, diversidad textual insuficiente y una escasez de anotaciones de alta calidad. Para mitigar estas limitaciones, presentamos GroundingSuite, que comprende: (1) un marco de anotación de datos automatizado que aprovecha múltiples agentes de Modelos de Visión-Lenguaje (VLM); (2) un conjunto de datos de entrenamiento a gran escala que abarca 9.56 millones de expresiones referenciales diversas y sus correspondientes segmentaciones; y (3) un benchmark de evaluación meticulosamente curado que consta de 3,800 imágenes. El conjunto de datos de entrenamiento de GroundingSuite facilita mejoras sustanciales en el rendimiento, permitiendo que los modelos entrenados con él alcancen resultados de vanguardia. Específicamente, un cIoU de 68.9 en gRefCOCO y un gIoU de 55.3 en RefCOCOm. Además, el marco de anotación de GroundingSuite demuestra una eficiencia superior en comparación con el método líder actual de anotación de datos, es decir, 4.5 veces más rápido que el GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.Summary
AI-Generated Summary