MIMIC: Modelagem de Imagem Mascarada com Correspondências de Imagem
MIMIC: Masked Image Modeling with Image Correspondences
June 27, 2023
Autores: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI
Resumo
Muitas tarefas de predição densa pixel a pixel - como estimativa de profundidade e segmentação semântica em visão computacional - dependem atualmente de representações de imagens pré-treinadas. Portanto, a curadoria de conjuntos de dados eficazes para pré-treinamento é crucial. Infelizmente, os conjuntos de dados eficazes para pré-treinamento são aqueles com cenas de múltiplas visões e têm sido curados apenas usando malhas 3D anotadas, nuvens de pontos e parâmetros de câmera de ambientes simulados. Propomos um mecanismo de curadoria de dados que não requer nenhuma anotação. Extraímos dois conjuntos de dados: MIMIC-1M com 1,3 milhão e MIMIC-3M com 3,1 milhões de pares de imagens de múltiplas visões a partir de conjuntos de dados de vídeo de código aberto e de ambientes 3D sintéticos. Treinamos vários modelos auto-supervisionados com diferentes objetivos de modelagem de imagem mascarada para demonstrar os seguintes resultados: Representações treinadas no MIMIC-3M superam aquelas extraídas usando anotações em várias tarefas subsequentes, incluindo estimativa de profundidade, segmentação semântica, normais de superfície e estimativa de pose. Elas também superam representações que são congeladas e quando os dados de treinamento subsequentes são limitados a poucos exemplos (few-shot). O conjunto de dados maior (MIMIC-3M) melhora significativamente o desempenho, o que é promissor, já que nosso método de curadoria pode ser escalado arbitrariamente para produzir conjuntos de dados ainda maiores. O código, o conjunto de dados e os modelos pré-treinados do MIMIC estão disponíveis em código aberto em https://github.com/RAIVNLab/MIMIC.
English
Many pixelwise dense prediction tasks-depth estimation and semantic
segmentation in computer vision today rely on pretrained image representations.
Therefore, curating effective pretraining datasets is vital. Unfortunately, the
effective pretraining datasets are those with multi-view scenes and have only
been curated using annotated 3D meshes, point clouds, and camera parameters
from simulated environments. We propose a dataset-curation mechanism that does
not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and
MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and
from synthetic 3D environments. We train multiple self-supervised models with
different masked image modeling objectives to showcase the following findings:
Representations trained on MIMIC-3M outperform those mined using annotations on
multiple downstream tasks, including depth estimation, semantic segmentation,
surface normals, and pose estimation. They also outperform representations that
are frozen and when downstream training data is limited to few-shot. Larger
dataset (MIMIC-3M) significantly improves performance, which is promising since
our curation method can arbitrarily scale to produce even larger datasets.
MIMIC code, dataset, and pretrained models are open-sourced at
https://github.com/RAIVNLab/MIMIC.