ChatPaper.aiChatPaper

BetterDepth: 제로샷 단안 깊이 추정을 위한 플러그 앤 플레이 디퓨전 개선기

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

July 25, 2024
저자: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI

초록

대규모 데이터셋에 대한 학습을 통해, 제로샷 단안 깊이 추정(MDE) 방법들은 야외 환경에서 강력한 성능을 보이지만 종종 충분히 정밀한 세부 사항을 제공하지 못하는 문제가 있습니다. 최근 확산 기반(diffusion-based) MDE 접근법들은 매력적인 세부 정보 추출 능력을 보여주지만, 다양한 데이터셋에서 강력한 기하학적 사전 정보를 얻는 데 어려움을 겪어 기하학적으로 복잡한 장면에서 여전히 어려움을 겪습니다. 두 방법의 상호 보완적인 장점을 활용하기 위해, 우리는 BetterDepth를 제안하여 기하학적으로 정확한 아핀 불변(affine-invariant) MDE 성능을 효율적으로 달성하면서도 미세한 세부 사항을 포착할 수 있도록 합니다. 구체적으로, BetterDepth는 사전 훈련된 MDE 모델의 예측을 깊이 조건으로 사용하는 조건부 확산 기반 정제기(conditional diffusion-based refiner)로, 전역 깊이 맥락을 잘 포착하고 입력 이미지를 기반으로 세부 사항을 반복적으로 정제합니다. 이러한 정제기를 훈련하기 위해, 우리는 전역 사전 정렬(global pre-alignment)과 지역 패치 마스킹(local patch masking) 방법을 제안하여 BetterDepth가 깊이 조건에 충실하면서도 미세한 장면 세부 사항을 학습할 수 있도록 합니다. 소규모 합성 데이터셋에 대한 효율적인 훈련을 통해, BetterDepth는 다양한 공개 데이터셋과 야외 장면에서 최첨단 제로샷 MDE 성능을 달성합니다. 또한, BetterDepth는 추가 재훈련 없이 플러그 앤 플레이 방식으로 다른 MDE 모델의 성능을 향상시킬 수 있습니다.
English
By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.

Summary

AI-Generated Summary

PDF337November 28, 2024