Discrimination par Clusters Basée sur les Régions pour l'Apprentissage de Représentations Visuelles
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
papers.authors: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
papers.abstract
L'apprentissage de représentations visuelles est fondamental pour un large éventail de tâches en aval. Bien que les modèles contrastifs récents combinant vision et langage, tels que CLIP et SigLIP, aient obtenu des performances impressionnantes en zero-shot grâce à un alignement à grande échelle entre vision et langage, leur dépendance à des représentations globales limite leur efficacité pour les tâches de prédiction dense, telles que l'ancrage, la reconnaissance de texte (OCR) et la segmentation. Pour combler cette lacune, nous introduisons la méthode Region-Aware Cluster Discrimination (RICE), une approche novatrice qui améliore les capacités visuelles et OCR au niveau régional. Nous construisons d'abord un jeu de données de régions candidates à l'échelle du milliard et proposons une couche Region Transformer pour extraire des sémantiques régionales riches. Nous concevons en outre une fonction de perte unifiée de discrimination par clusters régionaux qui soutient conjointement l'apprentissage d'objets et d'OCR dans un cadre de classification unique, permettant un entraînement distribué efficace et scalable sur des données à grande échelle. Des expériences approfondies montrent que RICE surpasse systématiquement les méthodes précédentes sur des tâches incluant la segmentation, la détection dense et la perception visuelle pour les Modèles de Langage Multimodaux à Grande Échelle (MLLMs). Les modèles pré-entraînés ont été publiés à l'adresse https://github.com/deepglint/MVT.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.