R-MAE: Regio's Ontmoeten Gemaskeerde Auto-encoders
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
Auteurs: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
Samenvatting
Visiespecifieke concepten zoals "regio" hebben een sleutelrol gespeeld bij het uitbreiden van algemene machine learning-frameworks naar taken zoals objectdetectie. Gezien het succes van regio-gebaseerde detectoren voor supervised learning en de vooruitgang van intra-beeldmethoden voor contrastief leren, onderzoeken we het gebruik van regio's voor reconstructieve pre-training. Uitgaande van Masked Autoencoding (MAE) als zowel een baseline als een inspiratie, stellen we een parallelle pre-text taak voor die is afgestemd op het adresseren van de één-op-veel-mapping tussen afbeeldingen en regio's. Aangezien dergelijke regio's op een niet-gesuperviseerde manier kunnen worden gegenereerd, erft onze aanpak (R-MAE) de brede toepasbaarheid van MAE, terwijl deze meer "regiobewust" is. We voeren grondige analyses uit tijdens de ontwikkeling van R-MAE en komen uit op een variant die zowel effectief als efficiënt is (1,3% overhead ten opzichte van MAE). Bovendien laat het consistente kwantitatieve verbeteringen zien wanneer het wordt gegeneraliseerd naar verschillende pre-trainingsgegevens en downstream detectie- en segmentatiebenchmarks. Tot slot bieden we uitgebreide kwalitatieve visualisaties om het begrip van het gedrag en potentieel van R-MAE te vergroten. Code zal beschikbaar worden gesteld op https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.