GroundingSuite: Medición de la Fundamentación de Píxeles Complejos y Multigranulares

Resumen

La segmentación basada en píxeles, que abarca tareas como la Segmentación de Expresiones Referenciales (RES), ha captado una atención considerable debido a su inmenso potencial para cerrar la brecha entre las modalidades de visión y lenguaje. Sin embargo, los avances en este dominio se ven actualmente limitados por las restricciones inherentes a los conjuntos de datos existentes, incluyendo categorías de objetos limitadas, diversidad textual insuficiente y una escasez de anotaciones de alta calidad. Para mitigar estas limitaciones, presentamos GroundingSuite, que comprende: (1) un marco de anotación de datos automatizado que aprovecha múltiples agentes de Modelos de Visión-Lenguaje (VLM); (2) un conjunto de datos de entrenamiento a gran escala que abarca 9.56 millones de expresiones referenciales diversas y sus correspondientes segmentaciones; y (3) un benchmark de evaluación meticulosamente curado que consta de 3,800 imágenes. El conjunto de datos de entrenamiento de GroundingSuite facilita mejoras sustanciales en el rendimiento, permitiendo que los modelos entrenados con él alcancen resultados de vanguardia. Específicamente, un cIoU de 68.9 en gRefCOCO y un gIoU de 55.3 en RefCOCOm. Además, el marco de anotación de GroundingSuite demuestra una eficiencia superior en comparación con el método líder actual de anotación de datos, es decir, 4.5 veces más rápido que el GLaMM.

English

Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., 4.5 times faster than the GLaMM.

GroundingSuite: Medición de la Fundamentación de Píxeles Complejos y Multigranulares

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

Resumen

Support