R-MAE: Regiones Encuentran Autoencoders Enmascarados

Resumen

Los conceptos específicos de visión, como "región", han desempeñado un papel clave en la extensión de los marcos generales de aprendizaje automático a tareas como la detección de objetos. Dado el éxito de los detectores basados en regiones para el aprendizaje supervisado y los avances de los métodos intra-imagen para el aprendizaje contrastivo, exploramos el uso de regiones para el pre-entrenamiento reconstructivo. Partiendo del Autoencoding Enmascarado (MAE) tanto como referencia e inspiración, proponemos una tarea de pre-texto paralela diseñada para abordar el mapeo uno-a-muchos entre imágenes y regiones. Dado que estas regiones pueden generarse de manera no supervisada, nuestro enfoque (R-MAE) hereda la amplia aplicabilidad de MAE, al mismo tiempo que es más "consciente de las regiones". Realizamos análisis exhaustivos durante el desarrollo de R-MAE y convergemos en una variante que es tanto efectiva como eficiente (un 1.3% de sobrecarga sobre MAE). Además, muestra mejoras cuantitativas consistentes cuando se generaliza a diversos datos de pre-entrenamiento y benchmarks de detección y segmentación aguas abajo. Finalmente, proporcionamos visualizaciones cualitativas extensas para mejorar la comprensión del comportamiento y el potencial de R-MAE. El código estará disponible en https://github.com/facebookresearch/r-mae.

English

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.

R-MAE: Regiones Encuentran Autoencoders Enmascarados

R-MAE: Regions Meet Masked Autoencoders

Resumen

Support