Discriminazione dei Cluster Basata su Regioni per l'Apprendimento di Rappresentazioni Visive

Abstract

L'apprendimento di rappresentazioni visive è fondamentale per un'ampia gamma di attività downstream. Sebbene i recenti modelli contrastivi visione-linguaggio, come CLIP e SigLIP, abbiano ottenuto prestazioni impressionanti in modalità zero-shot grazie all'allineamento su larga scala tra visione e linguaggio, la loro dipendenza da rappresentazioni globali limita la loro efficacia per attività di predizione densa, come il grounding, l'OCR e la segmentazione. Per colmare questa lacuna, introduciamo Region-Aware Cluster Discrimination (RICE), un metodo innovativo che potenzia le capacità visive e OCR a livello regionale. Inizialmente costruiamo un dataset di regioni candidate su scala miliardaria e proponiamo un livello Region Transformer per estrarre una semantica regionale ricca. Progettiamo inoltre una funzione di perdita unificata per la discriminazione dei cluster regionali che supporta congiuntamente l'apprendimento di oggetti e OCR all'interno di un unico framework di classificazione, consentendo un addestramento distribuito efficiente e scalabile su dati su larga scala. Esperimenti estensivi dimostrano che RICE supera costantemente i metodi precedenti in attività come la segmentazione, la rilevazione densa e la percezione visiva per Modelli Linguistici Multimodali di Grande Scala (MLLMs). I modelli pre-addestrati sono stati rilasciati su https://github.com/deepglint/MVT.

English

Learning visual representations is foundational for a broad spectrum of downstream tasks. Although recent vision-language contrastive models, such as CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale vision-language alignment, their reliance on global representations constrains their effectiveness for dense prediction tasks, such as grounding, OCR, and segmentation. To address this gap, we introduce Region-Aware Cluster Discrimination (RICE), a novel method that enhances region-level visual and OCR capabilities. We first construct a billion-scale candidate region dataset and propose a Region Transformer layer to extract rich regional semantics. We further design a unified region cluster discrimination loss that jointly supports object and OCR learning within a single classification framework, enabling efficient and scalable distributed training on large-scale data. Extensive experiments show that RICE consistently outperforms previous methods on tasks, including segmentation, dense detection, and visual perception for Multimodal Large Language Models (MLLMs). The pre-trained models have been released at https://github.com/deepglint/MVT.

Discriminazione dei Cluster Basata su Regioni per l'Apprendimento di Rappresentazioni Visive

Region-based Cluster Discrimination for Visual Representation Learning

Abstract

Support