R-MAE: Regionen treffen auf maskierte Autoencoder

Zusammenfassung

Vision-spezifische Konzepte wie "Region" haben eine Schlüsselrolle bei der Erweiterung allgemeiner Machine-Learning-Frameworks auf Aufgaben wie Objekterkennung gespielt. Angesichts des Erfolgs regionsbasierter Detektoren für überwachtes Lernen und der Fortschritte bei intra-Bild-Methoden für kontrastives Lernen untersuchen wir die Verwendung von Regionen für rekonstruktives Pre-Training. Ausgehend von Masked Autoencoding (MAE) sowohl als Baseline als auch als Inspiration schlagen wir eine parallele Pre-Text-Aufgabe vor, die speziell auf die Eins-zu-Viele-Zuordnung zwischen Bildern und Regionen zugeschnitten ist. Da solche Regionen auf unüberwachte Weise generiert werden können, erbt unser Ansatz (R-MAE) die breite Anwendbarkeit von MAE, ist jedoch stärker "regionenbewusst". Wir führen während der Entwicklung von R-MAE umfassende Analysen durch und konvergieren auf eine Variante, die sowohl effektiv als auch effizient ist (1,3 % Overhead gegenüber MAE). Darüber hinaus zeigt sie konsistente quantitative Verbesserungen, wenn sie auf verschiedene Pre-Training-Daten sowie Downstream-Aufgaben für Erkennung und Segmentierung verallgemeinert wird. Schließlich bieten wir umfangreiche qualitative Visualisierungen, um das Verständnis für das Verhalten und das Potenzial von R-MAE zu vertiefen. Der Code wird unter https://github.com/facebookresearch/r-mae verfügbar sein.

English

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.

R-MAE: Regionen treffen auf maskierte Autoencoder

R-MAE: Regions Meet Masked Autoencoders

Zusammenfassung

Support