Regio-gebaseerde Clusterdiscriminatie voor Visuele Representatieleren
Region-based Cluster Discrimination for Visual Representation Learning
July 26, 2025
Auteurs: Yin Xie, Kaicheng Yang, Xiang An, Kun Wu, Yongle Zhao, Weimo Deng, Zimin Ran, Yumeng Wang, Ziyong Feng, Roy Miles, Ismail Elezi, Jiankang Deng
cs.AI
Samenvatting
Het leren van visuele representaties is fundamenteel voor een breed scala aan downstream taken. Hoewel recente vision-language contrastieve modellen, zoals CLIP en SigLIP, indrukwekkende zero-shot prestaties hebben bereikt via grootschalige vision-language alignering, beperkt hun afhankelijkheid van globale representaties hun effectiviteit voor dense prediction taken, zoals grounding, OCR en segmentatie. Om deze kloof te overbruggen, introduceren we Region-Aware Cluster Discrimination (RICE), een nieuwe methode die regionale visuele en OCR-capaciteiten verbetert. We construeren eerst een dataset met miljarden kandidaat-regio's en stellen een Region Transformer-laag voor om rijke regionale semantiek te extraheren. Verder ontwerpen we een uniforme regionale cluster discriminatieverliesfunctie die gezamenlijk object- en OCR-leren ondersteunt binnen een enkel classificatiekader, waardoor efficiënte en schaalbare gedistribueerde training op grootschalige data mogelijk wordt. Uitgebreide experimenten tonen aan dat RICE consistent beter presteert dan eerdere methoden bij taken, waaronder segmentatie, dense detectie en visuele perceptie voor Multimodale Grote Taalmodellen (MLLMs). De vooraf getrainde modellen zijn vrijgegeven op https://github.com/deepglint/MVT.
English
Learning visual representations is foundational for a broad spectrum of
downstream tasks. Although recent vision-language contrastive models, such as
CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale
vision-language alignment, their reliance on global representations constrains
their effectiveness for dense prediction tasks, such as grounding, OCR, and
segmentation. To address this gap, we introduce Region-Aware Cluster
Discrimination (RICE), a novel method that enhances region-level visual and OCR
capabilities. We first construct a billion-scale candidate region dataset and
propose a Region Transformer layer to extract rich regional semantics. We
further design a unified region cluster discrimination loss that jointly
supports object and OCR learning within a single classification framework,
enabling efficient and scalable distributed training on large-scale data.
Extensive experiments show that RICE consistently outperforms previous methods
on tasks, including segmentation, dense detection, and visual perception for
Multimodal Large Language Models (MLLMs). The pre-trained models have been
released at https://github.com/deepglint/MVT.