ChatPaper.aiChatPaper

MIMIC: Маскированное моделирование изображений с использованием соответствий между изображениями

MIMIC: Masked Image Modeling with Image Correspondences

June 27, 2023
Авторы: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI

Аннотация

Многие задачи плотного предсказания на уровне пикселей, такие как оценка глубины и семантическая сегментация в компьютерном зрении, сегодня полагаются на предварительно обученные представления изображений. Поэтому создание эффективных наборов данных для предварительного обучения имеет решающее значение. К сожалению, эффективные наборы данных для предварительного обучения — это те, которые содержат сцены с несколькими ракурсами, и они были созданы только с использованием аннотированных 3D-мешей, облаков точек и параметров камер из симулированных сред. Мы предлагаем механизм создания наборов данных, который не требует никаких аннотаций. Мы извлекаем два набора данных: MIMIC-1M с 1,3 миллионами и MIMIC-3M с 3,1 миллионами пар изображений с несколькими ракурсами из открытых видеонаборов и синтетических 3D-сред. Мы обучаем несколько моделей с самоконтролем с различными целями маскированного моделирования изображений, чтобы продемонстрировать следующие результаты: представления, обученные на MIMIC-3M, превосходят те, которые были извлечены с использованием аннотаций, в нескольких последующих задачах, включая оценку глубины, семантическую сегментацию, нормали поверхностей и оценку позы. Они также превосходят замороженные представления и когда данные для последующего обучения ограничены малым количеством примеров (few-shot). Больший набор данных (MIMIC-3M) значительно улучшает производительность, что обнадеживает, поскольку наш метод создания данных может масштабироваться произвольно для создания еще более крупных наборов. Код MIMIC, наборы данных и предварительно обученные модели доступны по адресу https://github.com/RAIVNLab/MIMIC.
English
Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
PDF70December 15, 2024