MIMIC: Modelagem de Imagem Mascarada com Correspondências de Imagem

Resumo

Muitas tarefas de predição densa pixel a pixel - como estimativa de profundidade e segmentação semântica em visão computacional - dependem atualmente de representações de imagens pré-treinadas. Portanto, a curadoria de conjuntos de dados eficazes para pré-treinamento é crucial. Infelizmente, os conjuntos de dados eficazes para pré-treinamento são aqueles com cenas de múltiplas visões e têm sido curados apenas usando malhas 3D anotadas, nuvens de pontos e parâmetros de câmera de ambientes simulados. Propomos um mecanismo de curadoria de dados que não requer nenhuma anotação. Extraímos dois conjuntos de dados: MIMIC-1M com 1,3 milhão e MIMIC-3M com 3,1 milhões de pares de imagens de múltiplas visões a partir de conjuntos de dados de vídeo de código aberto e de ambientes 3D sintéticos. Treinamos vários modelos auto-supervisionados com diferentes objetivos de modelagem de imagem mascarada para demonstrar os seguintes resultados: Representações treinadas no MIMIC-3M superam aquelas extraídas usando anotações em várias tarefas subsequentes, incluindo estimativa de profundidade, segmentação semântica, normais de superfície e estimativa de pose. Elas também superam representações que são congeladas e quando os dados de treinamento subsequentes são limitados a poucos exemplos (few-shot). O conjunto de dados maior (MIMIC-3M) melhora significativamente o desempenho, o que é promissor, já que nosso método de curadoria pode ser escalado arbitrariamente para produzir conjuntos de dados ainda maiores. O código, o conjunto de dados e os modelos pré-treinados do MIMIC estão disponíveis em código aberto em https://github.com/RAIVNLab/MIMIC.

English

Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.

MIMIC: Modelagem de Imagem Mascarada com Correspondências de Imagem

MIMIC: Masked Image Modeling with Image Correspondences

Resumo

Support