R-MAE: Regiões Encontram Autoencoders Mascarados

Resumo

Conceitos específicos da área de visão, como "região", desempenharam um papel fundamental na extensão de frameworks gerais de aprendizado de máquina para tarefas como detecção de objetos. Dado o sucesso dos detectores baseados em regiões para aprendizado supervisionado e o progresso dos métodos intra-imagem para aprendizado contrastivo, exploramos o uso de regiões para pré-treinamento reconstrutivo. Partindo do Masked Autoencoding (MAE) tanto como uma linha de base quanto como inspiração, propomos uma tarefa de pré-texto paralela projetada para abordar o mapeamento um-para-muitos entre imagens e regiões. Como essas regiões podem ser geradas de forma não supervisionada, nossa abordagem (R-MAE) herda a ampla aplicabilidade do MAE, ao mesmo tempo em que se torna mais "consciente de regiões". Realizamos análises detalhadas durante o desenvolvimento do R-MAE e convergimos para uma variante que é tanto eficaz quanto eficiente (1,3% de sobrecarga em relação ao MAE). Além disso, ela mostra melhorias quantitativas consistentes quando generalizada para diversos dados de pré-treinamento e benchmarks de detecção e segmentação downstream. Por fim, fornecemos visualizações qualitativas extensas para aprimorar a compreensão do comportamento e do potencial do R-MAE. O código estará disponível em https://github.com/facebookresearch/r-mae.

English

Vision-specific concepts such as "region" have played a key role in extending general machine learning frameworks to tasks like object detection. Given the success of region-based detectors for supervised learning and the progress of intra-image methods for contrastive learning, we explore the use of regions for reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a baseline and an inspiration, we propose a parallel pre-text task tailored to address the one-to-many mapping between images and regions. Since such regions can be generated in an unsupervised way, our approach (R-MAE) inherits the wide applicability from MAE, while being more "region-aware". We conduct thorough analyses during the development of R-MAE, and converge on a variant that is both effective and efficient (1.3% overhead over MAE). Moreover, it shows consistent quantitative improvements when generalized to various pre-training data and downstream detection and segmentation benchmarks. Finally, we provide extensive qualitative visualizations to enhance the understanding of R-MAE's behaviour and potential. Code will be made available at https://github.com/facebookresearch/r-mae.

R-MAE: Regiões Encontram Autoencoders Mascarados

R-MAE: Regions Meet Masked Autoencoders

Resumo

Support