Discriminação de Agrupamentos Baseada em Regiões para Aprendizado de Representação Visual

Resumo

A aprendizagem de representações visuais é fundamental para uma ampla gama de tarefas subsequentes. Embora modelos contrastivos recentes de visão e linguagem, como CLIP e SigLIP, tenham alcançado desempenho impressionante em cenários de zero-shot por meio do alinhamento em larga escala entre visão e linguagem, sua dependência de representações globais limita sua eficácia para tarefas de predição densa, como grounding, OCR e segmentação. Para abordar essa lacuna, introduzimos o Método de Discriminação de Cluster com Consciência de Região (RICE), uma abordagem inovadora que aprimora as capacidades visuais e de OCR em nível regional. Primeiro, construímos um conjunto de dados de regiões candidatas em escala de bilhões e propomos uma camada de Transformer de Região para extrair semânticas regionais ricas. Além disso, projetamos uma função de perda unificada de discriminação de cluster de região que suporta conjuntamente a aprendizagem de objetos e OCR dentro de um único framework de classificação, permitindo treinamento distribuído eficiente e escalável em dados de larga escala. Experimentos extensivos mostram que o RICE supera consistentemente métodos anteriores em tarefas como segmentação, detecção densa e percepção visual para Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Os modelos pré-treinados foram disponibilizados em https://github.com/deepglint/MVT.

English

Learning visual representations is foundational for a broad spectrum of downstream tasks. Although recent vision-language contrastive models, such as CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale vision-language alignment, their reliance on global representations constrains their effectiveness for dense prediction tasks, such as grounding, OCR, and segmentation. To address this gap, we introduce Region-Aware Cluster Discrimination (RICE), a novel method that enhances region-level visual and OCR capabilities. We first construct a billion-scale candidate region dataset and propose a Region Transformer layer to extract rich regional semantics. We further design a unified region cluster discrimination loss that jointly supports object and OCR learning within a single classification framework, enabling efficient and scalable distributed training on large-scale data. Extensive experiments show that RICE consistently outperforms previous methods on tasks, including segmentation, dense detection, and visual perception for Multimodal Large Language Models (MLLMs). The pre-trained models have been released at https://github.com/deepglint/MVT.

Discriminação de Agrupamentos Baseada em Regiões para Aprendizado de Representação Visual

Region-based Cluster Discrimination for Visual Representation Learning

Resumo

Support