視覚表現学習のための領域ベースクラスタ識別
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
著者: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
要旨
視覚表現の学習は、幅広い下流タスクの基盤となる。最近の視覚-言語コントラスティブモデル(CLIPやSigLIPなど)は、大規模な視覚-言語アラインメントを通じて印象的なゼロショット性能を達成しているが、グローバル表現への依存が、グラウンディング、OCR、セグメンテーションなどの密な予測タスクにおける有効性を制限している。このギャップを埋めるため、我々はRegion-Aware Cluster Discrimination(RICE)という新しい手法を提案する。これは、領域レベルの視覚およびOCR能力を強化するものである。まず、10億規模の候補領域データセットを構築し、豊富な領域セマンティクスを抽出するためのRegion Transformer層を提案する。さらに、単一の分類フレームワーク内で物体とOCRの学習を共同でサポートする統一された領域クラスタ識別損失を設計し、大規模データに対する効率的でスケーラブルな分散トレーニングを可能にする。広範な実験により、RICEがセグメンテーション、密な検出、マルチモーダル大規模言語モデル(MLLM)の視覚知覚を含むタスクにおいて、従来の手法を一貫して上回ることが示された。事前学習済みモデルはhttps://github.com/deepglint/MVTで公開されている。
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.