ChatPaper.aiChatPaper

MIMIC : Modélisation d'Images Masquées avec Correspondances d'Images

MIMIC: Masked Image Modeling with Image Correspondences

June 27, 2023
Auteurs: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI

Résumé

De nombreuses tâches de prédiction dense au niveau des pixels, telles que l'estimation de la profondeur et la segmentation sémantique en vision par ordinateur, reposent aujourd'hui sur des représentations d'images pré-entraînées. Par conséquent, la constitution de jeux de données de pré-entraînement efficaces est cruciale. Malheureusement, les jeux de données de pré-entraînement efficaces sont ceux qui contiennent des scènes multi-vues et n'ont été constitués qu'à l'aide de maillages 3D annotés, de nuages de points et de paramètres de caméra provenant d'environnements simulés. Nous proposons un mécanisme de constitution de jeux de données qui ne nécessite aucune annotation. Nous avons extrait deux jeux de données : MIMIC-1M avec 1,3 million et MIMIC-3M avec 3,1 millions de paires d'images multi-vues à partir de jeux de données vidéo open-source et d'environnements 3D synthétiques. Nous avons entraîné plusieurs modèles auto-supervisés avec différents objectifs de modélisation d'images masquées pour démontrer les résultats suivants : les représentations entraînées sur MIMIC-3M surpassent celles extraites à l'aide d'annotations sur plusieurs tâches en aval, notamment l'estimation de la profondeur, la segmentation sémantique, les normales de surface et l'estimation de la pose. Elles surpassent également les représentations figées et lorsque les données d'entraînement en aval sont limitées à quelques exemples. Un jeu de données plus large (MIMIC-3M) améliore significativement les performances, ce qui est prometteur puisque notre méthode de constitution peut être mise à l'échelle de manière arbitraire pour produire des jeux de données encore plus volumineux. Le code, les jeux de données et les modèles pré-entraînés de MIMIC sont open-source à l'adresse https://github.com/RAIVNLab/MIMIC.
English
Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
PDF70December 15, 2024