ChatPaper.aiChatPaper

MIMIC: Modelado de Imágenes Enmascaradas con Correspondencias de Imágenes

MIMIC: Masked Image Modeling with Image Correspondences

June 27, 2023
Autores: Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna
cs.AI

Resumen

Muchas tareas de predicción densa píxel a píxel, como la estimación de profundidad y la segmentación semántica en visión por computadora, dependen actualmente de representaciones de imágenes preentrenadas. Por lo tanto, la creación de conjuntos de datos de preentrenamiento efectivos es crucial. Desafortunadamente, los conjuntos de datos de preentrenamiento efectivos son aquellos con escenas de múltiples vistas y solo se han creado utilizando mallas 3D anotadas, nubes de puntos y parámetros de cámara de entornos simulados. Proponemos un mecanismo de creación de conjuntos de datos que no requiere ninguna anotación. Extraemos dos conjuntos de datos: MIMIC-1M con 1.3 millones y MIMIC-3M con 3.1 millones de pares de imágenes de múltiples vistas, obtenidos de conjuntos de datos de video de código abierto y de entornos 3D sintéticos. Entrenamos múltiples modelos auto-supervisados con diferentes objetivos de modelado de imágenes enmascaradas para demostrar los siguientes hallazgos: Las representaciones entrenadas en MIMIC-3M superan a las extraídas utilizando anotaciones en múltiples tareas posteriores, incluyendo la estimación de profundidad, la segmentación semántica, las normales de superficie y la estimación de pose. También superan a las representaciones que están congeladas y cuando los datos de entrenamiento posteriores se limitan a pocos ejemplos. Un conjunto de datos más grande (MIMIC-3M) mejora significativamente el rendimiento, lo cual es prometedor ya que nuestro método de creación puede escalar arbitrariamente para producir conjuntos de datos aún más grandes. El código de MIMIC, el conjunto de datos y los modelos preentrenados están disponibles en https://github.com/RAIVNLab/MIMIC.
English
Many pixelwise dense prediction tasks-depth estimation and semantic segmentation in computer vision today rely on pretrained image representations. Therefore, curating effective pretraining datasets is vital. Unfortunately, the effective pretraining datasets are those with multi-view scenes and have only been curated using annotated 3D meshes, point clouds, and camera parameters from simulated environments. We propose a dataset-curation mechanism that does not require any annotations. We mine two datasets: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs from open-sourced video datasets and from synthetic 3D environments. We train multiple self-supervised models with different masked image modeling objectives to showcase the following findings: Representations trained on MIMIC-3M outperform those mined using annotations on multiple downstream tasks, including depth estimation, semantic segmentation, surface normals, and pose estimation. They also outperform representations that are frozen and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
PDF70December 15, 2024