Discriminação de Agrupamentos Baseada em Regiões para Aprendizado de Representação Visual
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
Autores: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
Resumo
A aprendizagem de representações visuais é fundamental para uma ampla gama de tarefas subsequentes. Embora modelos contrastivos recentes de visão e linguagem, como CLIP e SigLIP, tenham alcançado desempenho impressionante em cenários de zero-shot por meio do alinhamento em larga escala entre visão e linguagem, sua dependência de representações globais limita sua eficácia para tarefas de predição densa, como grounding, OCR e segmentação. Para abordar essa lacuna, introduzimos o Método de Discriminação de Cluster com Consciência de Região (RICE), uma abordagem inovadora que aprimora as capacidades visuais e de OCR em nível regional. Primeiro, construímos um conjunto de dados de regiões candidatas em escala de bilhões e propomos uma camada de Transformer de Região para extrair semânticas regionais ricas. Além disso, projetamos uma função de perda unificada de discriminação de cluster de região que suporta conjuntamente a aprendizagem de objetos e OCR dentro de um único framework de classificação, permitindo treinamento distribuído eficiente e escalável em dados de larga escala. Experimentos extensivos mostram que o RICE supera consistentemente métodos anteriores em tarefas como segmentação, detecção densa e percepção visual para Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Os modelos pré-treinados foram disponibilizados em https://github.com/deepglint/MVT.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.