MIMIC: Modellazione di Immagini Mascherate con Corrispondenze di Immagini
MIMIC: Masked Image Modeling with Image Correspondences
June 27, 2023
Autori: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI
Abstract
Molti compiti di predizione densa a livello di pixel, come la stima della profondità e la segmentazione semantica nella visione artificiale, si basano oggi su rappresentazioni di immagini pre-addestrate. Pertanto, la creazione di dataset di pre-addestramento efficaci è fondamentale. Purtroppo, i dataset di pre-addestramento efficaci sono quelli con scene multi-vista e sono stati curati solo utilizzando mesh 3D annotate, nuvole di punti e parametri della fotocamera provenienti da ambienti simulati. Proponiamo un meccanismo di creazione di dataset che non richiede alcuna annotazione. Abbiamo estratto due dataset: MIMIC-1M con 1,3 milioni e MIMIC-3M con 3,1 milioni di coppie di immagini multi-vista da dataset video open-source e da ambienti 3D sintetici. Abbiamo addestrato diversi modelli auto-supervisionati con diversi obiettivi di modellazione di immagini mascherate per dimostrare i seguenti risultati: le rappresentazioni addestrate su MIMIC-3M superano quelle estratte utilizzando annotazioni in molteplici compiti downstream, tra cui la stima della profondità, la segmentazione semantica, le normali di superficie e la stima della posa. Superano anche le rappresentazioni che sono congelate e quando i dati di addestramento downstream sono limitati a pochi esempi. Un dataset più grande (MIMIC-3M) migliora significativamente le prestazioni, il che è promettente poiché il nostro metodo di creazione può scalare arbitrariamente per produrre dataset ancora più grandi. Il codice MIMIC, il dataset e i modelli pre-addestrati sono open-source all'indirizzo https://github.com/RAIVNLab/MIMIC.
English
Many pixelwise dense prediction tasks-depth estimation and semantic
segmentation in computer vision today rely on pretrained image representations.
Therefore, curating effective pretraining datasets is vital. Unfortunately, the
effective pretraining datasets are those with multi-view scenes and have only
been curated using annotated 3D meshes, point clouds, and camera parameters
from simulated environments. We propose a dataset-curation mechanism that does
not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and
MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and
from synthetic 3D environments. We train multiple self-supervised models with
different masked image modeling objectives to showcase the following findings:
Representations trained on MIMIC-3M outperform those mined using annotations on
multiple downstream tasks, including depth estimation, semantic segmentation,
surface normals, and pose estimation. They also outperform representations that
are frozen and when downstream training data is limited to few-shot. Larger
dataset (MIMIC-3M) significantly improves performance, which is promising since
our curation method can arbitrarily scale to produce even larger datasets.
MIMIC code, dataset, and pretrained models are open-sourced at
https://github.com/RAIVNLab/MIMIC.