ChatPaper.aiChatPaper

MiDaS v3.1 – Eine Modellsammlung für robuste monokulare relative Tiefenschätzung

MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

July 26, 2023
Autoren: Reiner Birkl, Diana Wofk, Matthias Müller
cs.AI

Zusammenfassung

Wir veröffentlichen MiDaS v3.1 für monokulare Tiefenschätzung, das eine Vielzahl neuer Modelle basierend auf verschiedenen Encoder-Backbones bietet. Diese Veröffentlichung wurde durch den Erfolg von Transformern in der Computer Vision motiviert, wobei mittlerweile eine große Auswahl an vortrainierten Vision Transformern verfügbar ist. Wir untersuchen, wie die Verwendung der vielversprechendsten Vision Transformer als Bild-Encoder die Qualität der Tiefenschätzung und die Laufzeit der MiDaS-Architektur beeinflusst. Unsere Untersuchung umfasst auch neuere konvolutionelle Ansätze, die in Bildklassifizierungsaufgaben eine vergleichbare Qualität wie Vision Transformer erreichen. Während die vorherige Version MiDaS v3.0 ausschließlich den klassischen Vision Transformer ViT nutzt, bietet MiDaS v3.1 zusätzliche Modelle basierend auf BEiT, Swin, SwinV2, Next-ViT und LeViT. Diese Modelle bieten unterschiedliche Kompromisse zwischen Leistung und Laufzeit. Das beste Modell verbessert die Qualität der Tiefenschätzung um 28 %, während effiziente Modelle Downstream-Aufgaben ermöglichen, die hohe Bildraten erfordern. Wir beschreiben auch den allgemeinen Prozess zur Integration neuer Backbones. Ein Video, das die Arbeit zusammenfasst, ist unter https://youtu.be/UjaeNNFf9sE zu finden, und der Code ist unter https://github.com/isl-org/MiDaS verfügbar.
English
We release MiDaS v3.1 for monocular depth estimation, offering a variety of new models based on different encoder backbones. This release is motivated by the success of transformers in computer vision, with a large variety of pretrained vision transformers now available. We explore how using the most promising vision transformers as image encoders impacts depth estimation quality and runtime of the MiDaS architecture. Our investigation also includes recent convolutional approaches that achieve comparable quality to vision transformers in image classification tasks. While the previous release MiDaS v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models offer different performance-runtime tradeoffs. The best model improves the depth estimation quality by 28% while efficient models enable downstream tasks requiring high frame rates. We also describe the general process for integrating new backbones. A video summarizing the work can be found at https://youtu.be/UjaeNNFf9sE and the code is available at https://github.com/isl-org/MiDaS.
PDF91December 15, 2024