Discriminazione dei Cluster Basata su Regioni per l'Apprendimento di Rappresentazioni Visive
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
Autori: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
Abstract
L'apprendimento di rappresentazioni visive è fondamentale per un'ampia gamma di attività downstream. Sebbene i recenti modelli contrastivi visione-linguaggio, come CLIP e SigLIP, abbiano ottenuto prestazioni impressionanti in modalità zero-shot grazie all'allineamento su larga scala tra visione e linguaggio, la loro dipendenza da rappresentazioni globali limita la loro efficacia per attività di predizione densa, come il grounding, l'OCR e la segmentazione. Per colmare questa lacuna, introduciamo Region-Aware Cluster Discrimination (RICE), un metodo innovativo che potenzia le capacità visive e OCR a livello regionale. Inizialmente costruiamo un dataset di regioni candidate su scala miliardaria e proponiamo un livello Region Transformer per estrarre una semantica regionale ricca. Progettiamo inoltre una funzione di perdita unificata per la discriminazione dei cluster regionali che supporta congiuntamente l'apprendimento di oggetti e OCR all'interno di un unico framework di classificazione, consentendo un addestramento distribuito efficiente e scalabile su dati su larga scala. Esperimenti estensivi dimostrano che RICE supera costantemente i metodi precedenti in attività come la segmentazione, la rilevazione densa e la percezione visiva per Modelli Linguistici Multimodali di Grande Scala (MLLMs). I modelli pre-addestrati sono stati rilasciati su https://github.com/deepglint/MVT.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.