ChatPaper.aiChatPaper

R-MAE: Regio's Ontmoeten Gemaskeerde Auto-encoders

R-MAE: Regions Meet Masked Autoencoders

June 8, 2023
Auteurs: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI

Samenvatting

Visiespecifieke concepten zoals "regio" hebben een sleutelrol gespeeld bij het uitbreiden van algemene machine learning-frameworks naar taken zoals objectdetectie. Gezien het succes van regio-gebaseerde detectoren voor supervised learning en de vooruitgang van intra-beeldmethoden voor contrastief leren, onderzoeken we het gebruik van regio's voor reconstructieve pre-training. Uitgaande van Masked Autoencoding (MAE) als zowel een baseline als een inspiratie, stellen we een parallelle pre-text taak voor die is afgestemd op het adresseren van de één-op-veel-mapping tussen afbeeldingen en regio's. Aangezien dergelijke regio's op een niet-gesuperviseerde manier kunnen worden gegenereerd, erft onze aanpak (R-MAE) de brede toepasbaarheid van MAE, terwijl deze meer "regiobewust" is. We voeren grondige analyses uit tijdens de ontwikkeling van R-MAE en komen uit op een variant die zowel effectief als efficiënt is (1,3% overhead ten opzichte van MAE). Bovendien laat het consistente kwantitatieve verbeteringen zien wanneer het wordt gegeneraliseerd naar verschillende pre-trainingsgegevens en downstream detectie- en segmentatiebenchmarks. Tot slot bieden we uitgebreide kwalitatieve visualisaties om het begrip van het gedrag en potentieel van R-MAE te vergroten. Code zal beschikbaar worden gesteld op https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.
PDF20December 15, 2024