Discriminación de Agrupaciones Basada en Regiones para el Aprendizaje de Representaciones Visuales
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
Autores: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
Resumen
El aprendizaje de representaciones visuales es fundamental para una amplia gama de tareas posteriores. Aunque los modelos recientes de contraste visión-lenguaje, como CLIP y SigLIP, han logrado un rendimiento impresionante en tareas de cero-shot mediante la alineación a gran escala entre visión y lenguaje, su dependencia de representaciones globales limita su eficacia en tareas de predicción densa, como la localización, OCR y segmentación. Para abordar esta brecha, presentamos Region-Aware Cluster Discrimination (RICE), un método novedoso que mejora las capacidades visuales y de OCR a nivel regional. Primero construimos un conjunto de datos de regiones candidatas a escala de mil millones y proponemos una capa de Region Transformer para extraer semántica regional rica. Además, diseñamos una función de pérdida unificada de discriminación de clústeres regionales que apoya conjuntamente el aprendizaje de objetos y OCR dentro de un único marco de clasificación, permitiendo un entrenamiento distribuido eficiente y escalable en datos a gran escala. Experimentos exhaustivos muestran que RICE supera consistentemente a métodos anteriores en tareas como segmentación, detección densa y percepción visual para Modelos de Lenguaje Multimodal a Gran Escala (MLLMs). Los modelos preentrenados han sido publicados en https://github.com/deepglint/MVT.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.