R-MAE: Регионы встречают маскированные автокодировщики
R-MAE: Regions Meet Masked Autoencoders
June 8, 2023
Авторы: Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen
cs.AI
Аннотация
Специфические для компьютерного зрения концепции, такие как "регион", сыграли ключевую роль в расширении общих фреймворков машинного обучения для задач, таких как обнаружение объектов. Учитывая успех регион-ориентированных детекторов в обучении с учителем и прогресс методов внутриизображения для контрастного обучения, мы исследуем использование регионов для реконструктивного предобучения. Начиная с Masked Autoencoding (MAE) как базового подхода и источника вдохновения, мы предлагаем параллельную предобучающую задачу, адаптированную для решения проблемы "один ко многим" между изображениями и регионами. Поскольку такие регионы могут быть сгенерированы неконтролируемым способом, наш подход (R-MAE) наследует широкую применимость MAE, будучи более "регион-ориентированным". Мы проводим тщательный анализ в процессе разработки R-MAE и приходим к варианту, который является как эффективным, так и экономичным (накладные расходы всего 1,3% по сравнению с MAE). Более того, он демонстрирует стабильные количественные улучшения при обобщении на различные данные для предобучения и эталонные тесты для обнаружения и сегментации. Наконец, мы предоставляем обширные качественные визуализации для лучшего понимания поведения и потенциала R-MAE. Код будет доступен по адресу https://github.com/facebookresearch/r-mae.
English
Vision-specific concepts such as "region" have played a key role in extending
general machine learning frameworks to tasks like object detection. Given the
success of region-based detectors for supervised learning and the progress of
intra-image methods for contrastive learning, we explore the use of regions for
reconstructive pre-training. Starting from Masked Autoencoding (MAE) both as a
baseline and an inspiration, we propose a parallel pre-text task tailored to
address the one-to-many mapping between images and regions. Since such regions
can be generated in an unsupervised way, our approach (R-MAE) inherits the wide
applicability from MAE, while being more "region-aware". We conduct thorough
analyses during the development of R-MAE, and converge on a variant that is
both effective and efficient (1.3% overhead over MAE). Moreover, it shows
consistent quantitative improvements when generalized to various pre-training
data and downstream detection and segmentation benchmarks. Finally, we provide
extensive qualitative visualizations to enhance the understanding of R-MAE's
behaviour and potential. Code will be made available at
https://github.com/facebookresearch/r-mae.