R-MAE: Regionen treffen auf maskierte Autoencoder
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
Autoren: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
Zusammenfassung
Vision-spezifische Konzepte wie "Region" haben eine Schlüsselrolle bei der Erweiterung allgemeiner Machine-Learning-Frameworks auf Aufgaben wie Objekterkennung gespielt. Angesichts des Erfolgs regionsbasierter Detektoren für überwachtes Lernen und der Fortschritte bei intra-Bild-Methoden für kontrastives Lernen untersuchen wir die Verwendung von Regionen für rekonstruktives Pre-Training. Ausgehend von Masked Autoencoding (MAE) sowohl als Baseline als auch als Inspiration schlagen wir eine parallele Pre-Text-Aufgabe vor, die speziell auf die Eins-zu-Viele-Zuordnung zwischen Bildern und Regionen zugeschnitten ist. Da solche Regionen auf unüberwachte Weise generiert werden können, erbt unser Ansatz (R-MAE) die breite Anwendbarkeit von MAE, ist jedoch stärker "regionenbewusst". Wir führen während der Entwicklung von R-MAE umfassende Analysen durch und konvergieren auf eine Variante, die sowohl effektiv als auch effizient ist (1,3 % Overhead gegenüber MAE). Darüber hinaus zeigt sie konsistente quantitative Verbesserungen, wenn sie auf verschiedene Pre-Training-Daten sowie Downstream-Aufgaben für Erkennung und Segmentierung verallgemeinert wird. Schließlich bieten wir umfangreiche qualitative Visualisierungen, um das Verständnis für das Verhalten und das Potenzial von R-MAE zu vertiefen. Der Code wird unter https://github.com/facebookresearch/r-mae verfügbar sein.
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.