Regio-gebaseerde Clusterdiscriminatie voor Visuele Representatieleren

Samenvatting

Het leren van visuele representaties is fundamenteel voor een breed scala aan downstream taken. Hoewel recente vision-language contrastieve modellen, zoals CLIP en SigLIP, indrukwekkende zero-shot prestaties hebben bereikt via grootschalige vision-language alignering, beperkt hun afhankelijkheid van globale representaties hun effectiviteit voor dense prediction taken, zoals grounding, OCR en segmentatie. Om deze kloof te overbruggen, introduceren we Region-Aware Cluster Discrimination (RICE), een nieuwe methode die regionale visuele en OCR-capaciteiten verbetert. We construeren eerst een dataset met miljarden kandidaat-regio's en stellen een Region Transformer-laag voor om rijke regionale semantiek te extraheren. Verder ontwerpen we een uniforme regionale cluster discriminatieverliesfunctie die gezamenlijk object- en OCR-leren ondersteunt binnen een enkel classificatiekader, waardoor efficiënte en schaalbare gedistribueerde training op grootschalige data mogelijk wordt. Uitgebreide experimenten tonen aan dat RICE consistent beter presteert dan eerdere methoden bij taken, waaronder segmentatie, dense detectie en visuele perceptie voor Multimodale Grote Taalmodellen (MLLMs). De vooraf getrainde modellen zijn vrijgegeven op https://github.com/deepglint/MVT.

English

Learning visual representations is foundational for a broad spectrum of downstream tasks. Although recent vision-language contrastive models, such as CLIP and SigLIP, have achieved impressive zero-shot performance via large-scale vision-language alignment, their reliance on global representations constrains their effectiveness for dense prediction tasks, such as grounding, OCR, and segmentation. To address this gap, we introduce Region-Aware Cluster Discrimination (RICE), a novel method that enhances region-level visual and OCR capabilities. We first construct a billion-scale candidate region dataset and propose a Region Transformer layer to extract rich regional semantics. We further design a unified region cluster discrimination loss that jointly supports object and OCR learning within a single classification framework, enabling efficient and scalable distributed training on large-scale data. Extensive experiments show that RICE consistently outperforms previous methods on tasks, including segmentation, dense detection, and visual perception for Multimodal Large Language Models (MLLMs). The pre-trained models have been released at https://github.com/deepglint/MVT.

Regio-gebaseerde Clusterdiscriminatie voor Visuele Representatieleren

Region-based Cluster Discrimination for Visual Representation Learning

Samenvatting

Support