MiDaS v3.1 -- Un Model Zoo para la Estimación Robusta de Profundidad Relativa Monocular
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation
July 26, 2023
Autores: Reiner Birkl, Diana Wofk, Matthias Müller
cs.AI
Resumen
Lanzamos MiDaS v3.1 para la estimación de profundidad monocular, ofreciendo una variedad de nuevos modelos basados en diferentes arquitecturas de codificadores. Este lanzamiento está motivado por el éxito de los transformadores en visión por computadora, con una amplia variedad de transformadores de visión preentrenados ahora disponibles. Exploramos cómo el uso de los transformadores de visión más prometedores como codificadores de imágenes impacta en la calidad de la estimación de profundidad y en el tiempo de ejecución de la arquitectura MiDaS. Nuestra investigación también incluye enfoques convolucionales recientes que logran una calidad comparable a los transformadores de visión en tareas de clasificación de imágenes. Mientras que la versión anterior, MiDaS v3.0, utilizaba únicamente el transformador de visión estándar ViT, MiDaS v3.1 ofrece modelos adicionales basados en BEiT, Swin, SwinV2, Next-ViT y LeViT. Estos modelos presentan diferentes compensaciones entre rendimiento y tiempo de ejecución. El mejor modelo mejora la calidad de la estimación de profundidad en un 28%, mientras que los modelos eficientes permiten tareas posteriores que requieren altas tasas de cuadros. También describimos el proceso general para integrar nuevas arquitecturas de codificadores. Un video que resume el trabajo se puede encontrar en https://youtu.be/UjaeNNFf9sE y el código está disponible en https://github.com/isl-org/MiDaS.
English
We release MiDaS v3.1 for monocular depth estimation, offering a variety of
new models based on different encoder backbones. This release is motivated by
the success of transformers in computer vision, with a large variety of
pretrained vision transformers now available. We explore how using the most
promising vision transformers as image encoders impacts depth estimation
quality and runtime of the MiDaS architecture. Our investigation also includes
recent convolutional approaches that achieve comparable quality to vision
transformers in image classification tasks. While the previous release MiDaS
v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers
additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models
offer different performance-runtime tradeoffs. The best model improves the
depth estimation quality by 28% while efficient models enable downstream tasks
requiring high frame rates. We also describe the general process for
integrating new backbones. A video summarizing the work can be found at
https://youtu.be/UjaeNNFf9sE and the code is available at
https://github.com/isl-org/MiDaS.