MiDaS v3.1 -- 단안 상대 깊이 추정을 위한 강건한 모델 모음집

초록

단안 깊이 추정을 위한 MiDaS v3.1을 출시하며, 다양한 인코더 백본 기반의 새로운 모델들을 제공합니다. 이번 릴리스는 컴퓨터 비전 분야에서 트랜스포머의 성공과 함께 현재 다양한 사전 학습된 비전 트랜스포머가 이용 가능해짐에 따라 기획되었습니다. 우리는 가장 유망한 비전 트랜스포머를 이미지 인코더로 사용했을 때 MiDaS 아키텍처의 깊이 추정 품질과 실행 시간에 미치는 영향을 탐구했습니다. 또한, 이미지 분류 작업에서 비전 트랜스포머와 비슷한 품질을 달성하는 최신 컨볼루션 접근법도 조사에 포함했습니다. 이전 버전인 MiDaS v3.0이 기본 비전 트랜스포머인 ViT만 활용한 반면, MiDaS v3.1은 BEiT, Swin, SwinV2, Next-ViT, LeViT를 기반으로 한 추가 모델들을 제공합니다. 이러한 모델들은 성능과 실행 시간 간의 다양한 트레이드오프를 제공합니다. 최고의 모델은 깊이 추정 품질을 28% 향상시키는 반면, 효율적인 모델들은 높은 프레임 속도를 요구하는 다운스트림 작업을 가능하게 합니다. 또한, 새로운 백본을 통합하는 일반적인 과정에 대해서도 설명합니다. 이 작업을 요약한 동영상은 https://youtu.be/UjaeNNFf9sE에서 확인할 수 있으며, 코드는 https://github.com/isl-org/MiDaS에서 이용 가능합니다.

English

We release MiDaS v3.1 for monocular depth estimation, offering a variety of new models based on different encoder backbones. This release is motivated by the success of transformers in computer vision, with a large variety of pretrained vision transformers now available. We explore how using the most promising vision transformers as image encoders impacts depth estimation quality and runtime of the MiDaS architecture. Our investigation also includes recent convolutional approaches that achieve comparable quality to vision transformers in image classification tasks. While the previous release MiDaS v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models offer different performance-runtime tradeoffs. The best model improves the depth estimation quality by 28% while efficient models enable downstream tasks requiring high frame rates. We also describe the general process for integrating new backbones. A video summarizing the work can be found at https://youtu.be/UjaeNNFf9sE and the code is available at https://github.com/isl-org/MiDaS.

MiDaS v3.1 -- 단안 상대 깊이 추정을 위한 강건한 모델 모음집

MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

초록

Support