R-MAE: Regioni Incontrano Autoencoder Mascherati
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
Autori: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
Abstract
Concetti specifici della visione come "regione" hanno svolto un ruolo chiave nell'estensione dei framework generali di machine learning a compiti come il rilevamento di oggetti. Considerando il successo dei rilevatori basati su regioni per l'apprendimento supervisionato e i progressi dei metodi intra-immagine per l'apprendimento contrastivo, esploriamo l'uso delle regioni per il pre-training ricostruttivo. Partendo dal Masked Autoencoding (MAE) sia come baseline che come ispirazione, proponiamo un task pre-testo parallelo progettato per affrontare la mappatura uno-a-molti tra immagini e regioni. Poiché tali regioni possono essere generate in modo non supervisionato, il nostro approccio (R-MAE) eredita l'ampia applicabilità del MAE, pur essendo più "consapevole delle regioni". Durante lo sviluppo di R-MAE, conduciamo analisi approfondite e convergiamo su una variante che è sia efficace che efficiente (1,3% di overhead rispetto al MAE). Inoltre, mostra miglioramenti quantitativi consistenti quando generalizzato a vari dati di pre-training e benchmark di rilevamento e segmentazione downstream. Infine, forniamo ampie visualizzazioni qualitative per migliorare la comprensione del comportamento e del potenziale di R-MAE. Il codice sarà reso disponibile su https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.