GroundingSuite: Измерение сложного многоуровневого пиксельного заземления
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
March 13, 2025
Авторы: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
cs.AI
Аннотация
Пиксельная привязка, включающая такие задачи, как сегментация по референсным выражениям (Referring Expression Segmentation, RES), привлекает значительное внимание благодаря своему огромному потенциалу для сближения визуальной и языковой модальностей. Однако прогресс в этой области в настоящее время ограничен недостатками существующих наборов данных, включая ограниченное количество категорий объектов, недостаточное текстовое разнообразие и дефицит высококачественных аннотаций. Чтобы устранить эти ограничения, мы представляем GroundingSuite, который включает: (1) автоматизированную систему аннотирования данных, использующую несколько агентов Vision-Language Model (VLM); (2) крупномасштабный обучающий набор данных, содержащий 9,56 миллионов разнообразных референсных выражений и соответствующих им сегментаций; и (3) тщательно отобранный эталонный набор для оценки, состоящий из 3 800 изображений. Обучающий набор данных GroundingSuite способствует значительному улучшению производительности, позволяя моделям, обученным на нем, достигать современных результатов. В частности, достигается cIoU 68,9 на gRefCOCO и gIoU 55,3 на RefCOCOm. Более того, система аннотирования GroundingSuite демонстрирует превосходную эффективность по сравнению с текущим ведущим методом аннотирования данных, а именно, она работает в 4,5 раза быстрее, чем GLaMM.
English
Pixel grounding, encompassing tasks such as Referring Expression Segmentation
(RES), has garnered considerable attention due to its immense potential for
bridging the gap between vision and language modalities. However, advancements
in this domain are currently constrained by limitations inherent in existing
datasets, including limited object categories, insufficient textual diversity,
and a scarcity of high-quality annotations. To mitigate these limitations, we
introduce GroundingSuite, which comprises: (1) an automated data annotation
framework leveraging multiple Vision-Language Model (VLM) agents; (2) a
large-scale training dataset encompassing 9.56 million diverse referring
expressions and their corresponding segmentations; and (3) a meticulously
curated evaluation benchmark consisting of 3,800 images. The GroundingSuite
training dataset facilitates substantial performance improvements, enabling
models trained on it to achieve state-of-the-art results. Specifically, a cIoU
of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the
GroundingSuite annotation framework demonstrates superior efficiency compared
to the current leading data annotation method, i.e., 4.5 times faster than
the GLaMM.Summary
AI-Generated Summary