Региональная кластерная дискриминация для обучения визуальных представлений
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
Авторы: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
Аннотация
Обучение визуальным представлениям является основополагающим для широкого спектра последующих задач. Хотя недавние контрастные модели, связывающие зрение и язык, такие как CLIP и SigLIP, достигли впечатляющих результатов в задачах zero-shot за счет крупномасштабного согласования визуальных и языковых данных, их зависимость от глобальных представлений ограничивает их эффективность для задач плотного предсказания, таких как локализация, распознавание текста (OCR) и сегментация. Для устранения этого пробела мы представляем метод Region-Aware Cluster Discrimination (RICE), который улучшает возможности визуального анализа и OCR на уровне регионов. Сначала мы создаем набор данных кандидатных регионов масштаба миллиарда и предлагаем слой Region Transformer для извлечения богатой семантики регионов. Далее мы разрабатываем унифицированную функцию потерь для кластерной дискриминации регионов, которая совместно поддерживает обучение объектам и OCR в рамках единой классификационной схемы, что позволяет эффективно и масштабируемо проводить распределенное обучение на крупных данных. Многочисленные эксперименты показывают, что RICE стабильно превосходит предыдущие методы в задачах, включая сегментацию, плотное детектирование и визуальное восприятие для мультимодальных больших языковых моделей (MLLMs). Предобученные модели доступны по адресу https://github.com/deepglint/MVT.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.