MIMIC: Gemaskeerd Beeldmodelleren met Beeldcorrespondenties
MIMIC: Masked Image Modeling with Image Correspondences
June 27, 2023
Auteurs: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI
Samenvatting
Veel pixelgewijze dichtheidsvoorspellingstaken, zoals diepte-estimatie en semantische segmentatie in computervisie, zijn tegenwoordig afhankelijk van vooraf getrainde beeldrepresentaties. Daarom is het samenstellen van effectieve vooraf getrainde datasets van cruciaal belang. Helaas zijn de effectieve vooraf getrainde datasets die met multi-view scènes beschikbaar zijn, alleen samengesteld met behulp van geannoteerde 3D-meshes, puntenwolken en cameraparameters uit gesimuleerde omgevingen. Wij stellen een dataset-samenstellingsmechanisme voor dat geen annotaties vereist. We hebben twee datasets samengesteld: MIMIC-1M met 1,3 miljoen en MIMIC-3M met 3,1 miljoen multi-view beeldparen uit open-source videodatasets en uit synthetische 3D-omgevingen. We trainen meerdere zelfgesuperviseerde modellen met verschillende gemaskeerde beeldmodelleringsdoelstellingen om de volgende bevindingen te demonstreren: Representaties getraind op MIMIC-3M presteren beter dan die samengesteld met behulp van annotaties bij meerdere downstreamtaken, waaronder diepte-estimatie, semantische segmentatie, oppervlaktenormalen en pose-estimatie. Ze presteren ook beter dan representaties die bevroren zijn en wanneer downstream trainingsdata beperkt is tot few-shot. Een grotere dataset (MIMIC-3M) verbetert de prestaties aanzienlijk, wat veelbelovend is omdat onze samenstellingsmethode willekeurig kan worden opgeschaald om nog grotere datasets te produceren. De MIMIC-code, dataset en vooraf getrainde modellen zijn open-source beschikbaar op https://github.com/RAIVNLab/MIMIC.
English
Many pixelwise dense prediction tasks-depth estimation and semantic
segmentation in computer vision today rely on pretrained image representations.
Therefore, curating effective pretraining datasets is vital. Unfortunately, the
effective pretraining datasets are those with multi-view scenes and have only
been curated using annotated 3D meshes, point clouds, and camera parameters
from simulated environments. We propose a dataset-curation mechanism that does
not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and
MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and
from synthetic 3D environments. We train multiple self-supervised models with
different masked image modeling objectives to showcase the following findings:
Representations trained on MIMIC-3M outperform those mined using annotations on
multiple downstream tasks, including depth estimation, semantic segmentation,
surface normals, and pose estimation. They also outperform representations that
are frozen and when downstream training data is limited to few-shot. Larger
dataset (MIMIC-3M) significantly improves performance, which is promising since
our curation method can arbitrarily scale to produce even larger datasets.
MIMIC code, dataset, and pretrained models are open-sourced at
https://github.com/RAIVNLab/MIMIC.