MiDaS v3.1 -- Um Modelo Zoo para Estimativa Robusta de Profundidade Relativa Monocular

Resumo

Lançamos o MiDaS v3.1 para estimativa de profundidade monocular, oferecendo uma variedade de novos modelos baseados em diferentes backbones de codificação. Este lançamento é motivado pelo sucesso dos transformers em visão computacional, com uma grande variedade de vision transformers pré-treinados agora disponíveis. Exploramos como o uso dos vision transformers mais promissores como codificadores de imagem impacta a qualidade da estimativa de profundidade e o tempo de execução da arquitetura MiDaS. Nossa investigação também inclui abordagens convolucionais recentes que alcançam qualidade comparável aos vision transformers em tarefas de classificação de imagens. Enquanto o lançamento anterior MiDaS v3.0 utilizava exclusivamente o vision transformer padrão ViT, o MiDaS v3.1 oferece modelos adicionais baseados em BEiT, Swin, SwinV2, Next-ViT e LeViT. Esses modelos oferecem diferentes compensações entre desempenho e tempo de execução. O melhor modelo melhora a qualidade da estimativa de profundidade em 28%, enquanto modelos eficientes permitem tarefas subsequentes que exigem altas taxas de quadros. Também descrevemos o processo geral para integrar novos backbones. Um vídeo resumindo o trabalho pode ser encontrado em https://youtu.be/UjaeNNFf9sE e o código está disponível em https://github.com/isl-org/MiDaS.

English

We release MiDaS v3.1 for monocular depth estimation, offering a variety of new models based on different encoder backbones. This release is motivated by the success of transformers in computer vision, with a large variety of pretrained vision transformers now available. We explore how using the most promising vision transformers as image encoders impacts depth estimation quality and runtime of the MiDaS architecture. Our investigation also includes recent convolutional approaches that achieve comparable quality to vision transformers in image classification tasks. While the previous release MiDaS v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models offer different performance-runtime tradeoffs. The best model improves the depth estimation quality by 28% while efficient models enable downstream tasks requiring high frame rates. We also describe the general process for integrating new backbones. A video summarizing the work can be found at https://youtu.be/UjaeNNFf9sE and the code is available at https://github.com/isl-org/MiDaS.

MiDaS v3.1 -- Um Modelo Zoo para Estimativa Robusta de Profundidade Relativa Monocular

MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Resumo

Support