視覚表現学習のための領域ベースクラスタ識別

要旨

視覚表現の学習は、幅広い下流タスクの基盤となる。最近の視覚-言語コントラスティブモデル（CLIPやSigLIPなど）は、大規模な視覚-言語アラインメントを通じて印象的なゼロショット性能を達成しているが、グローバル表現への依存が、グラウンディング、OCR、セグメンテーションなどの密な予測タスクにおける有効性を制限している。このギャップを埋めるため、我々はRegion-Aware Cluster Discrimination（RICE）という新しい手法を提案する。これは、領域レベルの視覚およびOCR能力を強化するものである。まず、10億規模の候補領域データセットを構築し、豊富な領域セマンティクスを抽出するためのRegion Transformer層を提案する。さらに、単一の分類フレームワーク内で物体とOCRの学習を共同でサポートする統一された領域クラスタ識別損失を設計し、大規模データに対する効率的でスケーラブルな分散トレーニングを可能にする。広範な実験により、RICEがセグメンテーション、密な検出、マルチモーダル大規模言語モデル（MLLM）の視覚知覚を含むタスクにおいて、従来の手法を一貫して上回ることが示された。事前学習済みモデルはhttps://github.com/deepglint/MVTで公開されている。

English

Learning visual representations is foundational for a broad spectrum of downstream tasks. Although recent vision-language contrastive models, such as CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale vision-language alignment, their reliance on global representations constrains their effectiveness for dense prediction tasks, such as grounding, OCR, and segmentation. To address this gap, we introduce Region-Aware Cluster Discrimination (RICE), a novel method that enhances region-level visual and OCR capabilities. We first construct a billion-scale candidate region dataset and propose a Region Transformer layer to extract rich regional semantics. We further design a unified region cluster discrimination loss that jointly supports object and OCR learning within a single classification framework, enabling efficient and scalable distributed training on large-scale data. Extensive experiments show that RICE consistently outperforms previous methods on tasks, including segmentation, dense detection, and visual perception for Multimodal Large Language Models (MLLMs). The pre-trained models have been released at https://github.com/deepglint/MVT.

視覚表現学習のための領域ベースクラスタ識別

Region-based Cluster Discrimination for Visual Representation Learning

要旨

Support