Regionsbasierte Clusterdiskriminierung für visuelles Repräsentationslernen
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
papers.authors: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
papers.abstract
Das Erlernen visueller Repräsentationen ist grundlegend für eine breite Palette nachgelagerter Aufgaben. Obwohl neuere kontrastive Vision-Sprache-Modelle wie CLIP und SigLIP durch groß angelegte Vision-Sprache-Ausrichtung beeindruckende Zero-Shot-Leistungen erzielt haben, schränkt ihre Abhängigkeit von globalen Repräsentationen ihre Effektivität für dichte Vorhersageaufgaben wie Grounding, OCR und Segmentierung ein. Um diese Lücke zu schließen, führen wir Region-Aware Cluster Discrimination (RICE) ein, eine neuartige Methode, die die Fähigkeiten auf Regionsebene für visuelle und OCR-Aufgaben verbessert. Zunächst erstellen wir einen Milliarden-großen Datensatz von Kandidatenregionen und schlagen eine Region Transformer-Schicht vor, um reichhaltige regionale Semantik zu extrahieren. Weiterhin entwerfen wir einen einheitlichen Region-Cluster-Diskriminierungsverlust, der Objekt- und OCR-Lernen innerhalb eines einzigen Klassifikationsrahmens gemeinsam unterstützt und effizientes und skalierbares verteiltes Training auf großen Datenmengen ermöglicht. Umfangreiche Experimente zeigen, dass RICE bisherige Methoden bei Aufgaben wie Segmentierung, dichter Detektion und visueller Wahrnehmung für Multimodale Große Sprachmodelle (MLLMs) konsequent übertrifft. Die vortrainierten Modelle wurden unter https://github.com/deepglint/MVT veröffentlicht.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.