R-MAE: Regiones Encuentran Autoencoders Enmascarados
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
Autores: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
Resumen
Los conceptos específicos de visión, como "región", han desempeñado un papel clave en la extensión de los marcos generales de aprendizaje automático a tareas como la detección de objetos. Dado el éxito de los detectores basados en regiones para el aprendizaje supervisado y los avances de los métodos intra-imagen para el aprendizaje contrastivo, exploramos el uso de regiones para el pre-entrenamiento reconstructivo. Partiendo del Autoencoding Enmascarado (MAE) tanto como referencia e inspiración, proponemos una tarea de pre-texto paralela diseñada para abordar el mapeo uno-a-muchos entre imágenes y regiones. Dado que estas regiones pueden generarse de manera no supervisada, nuestro enfoque (R-MAE) hereda la amplia aplicabilidad de MAE, al mismo tiempo que es más "consciente de las regiones". Realizamos análisis exhaustivos durante el desarrollo de R-MAE y convergemos en una variante que es tanto efectiva como eficiente (un 1.3% de sobrecarga sobre MAE). Además, muestra mejoras cuantitativas consistentes cuando se generaliza a diversos datos de pre-entrenamiento y benchmarks de detección y segmentación aguas abajo. Finalmente, proporcionamos visualizaciones cualitativas extensas para mejorar la comprensión del comportamiento y el potencial de R-MAE. El código estará disponible en https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.