MiDaS v3.1 -- Um Modelo Zoo para Estimativa Robusta de Profundidade Relativa Monocular
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation
July 26, 2023
Autores: Reiner Birkl, Diana Wofk, Matthias Müller
cs.AI
Resumo
Lançamos o MiDaS v3.1 para estimativa de profundidade monocular, oferecendo uma variedade de novos modelos baseados em diferentes backbones de codificação. Este lançamento é motivado pelo sucesso dos transformers em visão computacional, com uma grande variedade de vision transformers pré-treinados agora disponíveis. Exploramos como o uso dos vision transformers mais promissores como codificadores de imagem impacta a qualidade da estimativa de profundidade e o tempo de execução da arquitetura MiDaS. Nossa investigação também inclui abordagens convolucionais recentes que alcançam qualidade comparável aos vision transformers em tarefas de classificação de imagens. Enquanto o lançamento anterior MiDaS v3.0 utilizava exclusivamente o vision transformer padrão ViT, o MiDaS v3.1 oferece modelos adicionais baseados em BEiT, Swin, SwinV2, Next-ViT e LeViT. Esses modelos oferecem diferentes compensações entre desempenho e tempo de execução. O melhor modelo melhora a qualidade da estimativa de profundidade em 28%, enquanto modelos eficientes permitem tarefas subsequentes que exigem altas taxas de quadros. Também descrevemos o processo geral para integrar novos backbones. Um vídeo resumindo o trabalho pode ser encontrado em https://youtu.be/UjaeNNFf9sE e o código está disponível em https://github.com/isl-org/MiDaS.
English
We release MiDaS v3.1 for monocular depth estimation, offering a variety of
new models based on different encoder backbones. This release is motivated by
the success of transformers in computer vision, with a large variety of
pretrained vision transformers now available. We explore how using the most
promising vision transformers as image encoders impacts depth estimation
quality and runtime of the MiDaS architecture. Our investigation also includes
recent convolutional approaches that achieve comparable quality to vision
transformers in image classification tasks. While the previous release MiDaS
v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers
additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models
offer different performance-runtime tradeoffs. The best model improves the
depth estimation quality by 28% while efficient models enable downstream tasks
requiring high frame rates. We also describe the general process for
integrating new backbones. A video summarizing the work can be found at
https://youtu.be/UjaeNNFf9sE and the code is available at
https://github.com/isl-org/MiDaS.