R-MAE: 領域特化型マスクドオートエンコーダ
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
著者: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
要旨
「領域」のような視覚特有の概念は、物体検出などのタスクにおいて一般的な機械学習フレームワークを拡張する上で重要な役割を果たしてきました。教師あり学習における領域ベースの検出器の成功と、コントラスティブ学習のための画像内手法の進展を踏まえ、我々は再構成型事前学習における領域の活用を探求します。Masked Autoencoding(MAE)をベースラインおよびインスピレーションとして出発点とし、画像と領域の間の一対多のマッピングに対処するために特化した並列的な事前タスクを提案します。このような領域は教師なしで生成可能であるため、我々のアプローチ(R-MAE)はMAEの広範な適用性を継承しつつ、より「領域を意識した」ものとなっています。R-MAEの開発過程で徹底的な分析を行い、効果的かつ効率的なバリアント(MAEに対して1.3%のオーバーヘッド)に収束しました。さらに、様々な事前学習データや下流の検出・セグメンテーションベンチマークに一般化した際に、一貫した定量的な改善を示しています。最後に、R-MAEの挙動と可能性を理解するための広範な定性的な可視化を提供します。コードはhttps://github.com/facebookresearch/r-maeで公開予定です。
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.