R-MAE: Regio's Ontmoeten Gemaskeerde Auto-encoders

Samenvatting

Visiespecifieke concepten zoals "regio" hebben een sleutelrol gespeeld bij het uitbreiden van algemene machine learning-frameworks naar taken zoals objectdetectie. Gezien het succes van regio-gebaseerde detectoren voor supervised learning en de vooruitgang van intra-beeldmethoden voor contrastief leren, onderzoeken we het gebruik van regio's voor reconstructieve pre-training. Uitgaande van Masked Autoencoding (MAE) als zowel een baseline als een inspiratie, stellen we een parallelle pre-text taak voor die is afgestemd op het adresseren van de één-op-veel-mapping tussen afbeeldingen en regio's. Aangezien dergelijke regio's op een niet-gesuperviseerde manier kunnen worden gegenereerd, erft onze aanpak (R-MAE) de brede toepasbaarheid van MAE, terwijl deze meer "regiobewust" is. We voeren grondige analyses uit tijdens de ontwikkeling van R-MAE en komen uit op een variant die zowel effectief als efficiënt is (1,3% overhead ten opzichte van MAE). Bovendien laat het consistente kwantitatieve verbeteringen zien wanneer het wordt gegeneraliseerd naar verschillende pre-trainingsgegevens en downstream detectie- en segmentatiebenchmarks. Tot slot bieden we uitgebreide kwalitatieve visualisaties om het begrip van het gedrag en potentieel van R-MAE te vergroten. Code zal beschikbaar worden gesteld op https://github.com/facebookresearch/r-mae.

English

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.

R-MAE: Regio's Ontmoeten Gemaskeerde Auto-encoders

R-MAE: Regions Meet Masked Autoencoders

Samenvatting

Support