ChatPaper.aiChatPaper

R-MAE: Regiones Encuentran Autoencoders Enmascarados

R-MAE: Regions Meet Masked Autoencoders

June 8, 2023
Autores: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI

Resumen

Los conceptos específicos de visión, como "región", han desempeñado un papel clave en la extensión de los marcos generales de aprendizaje automático a tareas como la detección de objetos. Dado el éxito de los detectores basados en regiones para el aprendizaje supervisado y los avances de los métodos intra-imagen para el aprendizaje contrastivo, exploramos el uso de regiones para el pre-entrenamiento reconstructivo. Partiendo del Autoencoding Enmascarado (MAE) tanto como referencia e inspiración, proponemos una tarea de pre-texto paralela diseñada para abordar el mapeo uno-a-muchos entre imágenes y regiones. Dado que estas regiones pueden generarse de manera no supervisada, nuestro enfoque (R-MAE) hereda la amplia aplicabilidad de MAE, al mismo tiempo que es más "consciente de las regiones". Realizamos análisis exhaustivos durante el desarrollo de R-MAE y convergemos en una variante que es tanto efectiva como eficiente (un 1.3% de sobrecarga sobre MAE). Además, muestra mejoras cuantitativas consistentes cuando se generaliza a diversos datos de pre-entrenamiento y benchmarks de detección y segmentación aguas abajo. Finalmente, proporcionamos visualizaciones cualitativas extensas para mejorar la comprensión del comportamiento y el potencial de R-MAE. El código estará disponible en https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.
PDF20December 15, 2024