GroundingSuite: Medição de Ancoragem de Pixels Complexa e Multi-Granular
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Autores: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Resumo
O pixel grounding, que abrange tarefas como a Segmentação de Expressões Referenciais (RES), tem atraído considerável atenção devido ao seu imenso potencial para preencher a lacuna entre as modalidades de visão e linguagem. No entanto, os avanços nesse domínio estão atualmente limitados pelas restrições inerentes aos conjuntos de dados existentes, incluindo categorias de objetos limitadas, diversidade textual insuficiente e escassez de anotações de alta qualidade. Para mitigar essas limitações, apresentamos o GroundingSuite, que compreende: (1) um framework automatizado de anotação de dados que utiliza múltiplos agentes de Modelos de Visão e Linguagem (VLM); (2) um conjunto de dados de treinamento em larga escala que abrange 9,56 milhões de expressões referenciais diversas e suas segmentações correspondentes; e (3) um benchmark de avaliação meticulosamente curado, composto por 3.800 imagens. O conjunto de dados de treinamento do GroundingSuite facilita melhorias substanciais de desempenho, permitindo que os modelos treinados nele alcancem resultados de ponta. Especificamente, um cIoU de 68,9 no gRefCOCO e um gIoU de 55,3 no RefCOCOm. Além disso, o framework de anotação do GroundingSuite demonstra eficiência superior em comparação com o método líder atual de anotação de dados, ou seja, 4,5 vezes mais rápido que o GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.Summary
AI-Generated Summary