R-MAE: Regioni Incontrano Autoencoder Mascherati

Abstract

Concetti specifici della visione come "regione" hanno svolto un ruolo chiave nell'estensione dei framework generali di machine learning a compiti come il rilevamento di oggetti. Considerando il successo dei rilevatori basati su regioni per l'apprendimento supervisionato e i progressi dei metodi intra-immagine per l'apprendimento contrastivo, esploriamo l'uso delle regioni per il pre-training ricostruttivo. Partendo dal Masked Autoencoding (MAE) sia come baseline che come ispirazione, proponiamo un task pre-testo parallelo progettato per affrontare la mappatura uno-a-molti tra immagini e regioni. Poiché tali regioni possono essere generate in modo non supervisionato, il nostro approccio (R-MAE) eredita l'ampia applicabilità del MAE, pur essendo più "consapevole delle regioni". Durante lo sviluppo di R-MAE, conduciamo analisi approfondite e convergiamo su una variante che è sia efficace che efficiente (1,3% di overhead rispetto al MAE). Inoltre, mostra miglioramenti quantitativi consistenti quando generalizzato a vari dati di pre-training e benchmark di rilevamento e segmentazione downstream. Infine, forniamo ampie visualizzazioni qualitative per migliorare la comprensione del comportamento e del potenziale di R-MAE. Il codice sarà reso disponibile su https://github.com/facebookresearch/r-mae.

English

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.

R-MAE: Regioni Incontrano Autoencoder Mascherati

R-MAE: Regions Meet Masked Autoencoders

Abstract

Support