ChatPaper.aiChatPaper

MIMIC: Maskierte Bildmodellierung mit Bildkorrespondenzen

MIMIC: Masked Image Modeling with Image Correspondences

June 27, 2023
Autoren: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI

Zusammenfassung

Viele pixelweise dichte Vorhersageaufgaben – wie Tiefenschätzung und semantische Segmentierung in der Computer Vision – basieren heute auf vortrainierten Bildrepräsentationen. Daher ist die Erstellung effektiver Vortrainingsdatensätze von entscheidender Bedeutung. Leider sind die effektiven Vortrainingsdatensätze solche mit Mehransichtsszenen und wurden bisher nur unter Verwendung annotierter 3D-Meshes, Punktwolken und Kameraparameter aus simulierten Umgebungen erstellt. Wir schlagen einen Mechanismus zur Datensatzerstellung vor, der keine Annotationen erfordert. Wir extrahieren zwei Datensätze: MIMIC-1M mit 1,3 Millionen und MIMIC-3M mit 3,1 Millionen Mehransicht-Bildpaaren aus offenen Video-Datensätzen und aus synthetischen 3D-Umgebungen. Wir trainieren mehrere selbstüberwachte Modelle mit verschiedenen Masked-Image-Modellierungszielen, um die folgenden Erkenntnisse zu demonstrieren: Repräsentationen, die auf MIMIC-3M trainiert wurden, übertreffen diejenigen, die mit Annotationen erstellt wurden, in mehreren nachgelagerten Aufgaben, einschließlich Tiefenschätzung, semantischer Segmentierung, Oberflächennormalen und Pose-Schätzung. Sie übertreffen auch Repräsentationen, die eingefroren sind, und wenn die nachgelagerten Trainingsdaten auf Few-Shot beschränkt sind. Ein größerer Datensatz (MIMIC-3M) verbessert die Leistung signifikant, was vielversprechend ist, da unsere Methode zur Datensatzerstellung beliebig skaliert werden kann, um noch größere Datensätze zu erzeugen. Der MIMIC-Code, die Datensätze und die vortrainierten Modelle sind unter https://github.com/RAIVNLab/MIMIC öffentlich zugänglich.
English
Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
PDF70December 15, 2024