R-MAE : Régions Rencontrent les Autoencodeurs Masqués
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
Auteurs: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
Résumé
Les concepts spécifiques à la vision, tels que "région", ont joué un rôle clé dans l'extension des frameworks généraux d'apprentissage automatique à des tâches comme la détection d'objets. Compte tenu du succès des détecteurs basés sur les régions pour l'apprentissage supervisé et des progrès des méthodes intra-image pour l'apprentissage contrastif, nous explorons l'utilisation des régions pour le pré-entraînement reconstructif. En partant du Masked Autoencoding (MAE) à la fois comme référence et source d'inspiration, nous proposons une tâche prétexte parallèle conçue pour traiter la correspondance un-à-plusieurs entre les images et les régions. Puisque ces régions peuvent être générées de manière non supervisée, notre approche (R-MAE) hérite de la large applicabilité du MAE, tout en étant plus "consciente des régions". Nous menons des analyses approfondies lors du développement de R-MAE et convergeons vers une variante à la fois efficace et efficiente (surcharge de 1,3 % par rapport au MAE). De plus, elle montre des améliorations quantitatives constantes lorsqu'elle est généralisée à diverses données de pré-entraînement et à des benchmarks de détection et de segmentation en aval. Enfin, nous fournissons des visualisations qualitatives étendues pour améliorer la compréhension du comportement et du potentiel de R-MAE. Le code sera disponible à l'adresse https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.