DepthFM: 플로우 매칭을 통한 빠른 단안 깊이 추정
DepthFM: Fast Monocular Depth Estimation with Flow Matching
March 20, 2024
저자: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
cs.AI
초록
단안 깊이 추정은 다양한 하위 시각 작업과 응용 분야에서 중요한 역할을 합니다. 현재 이 문제에 대한 판별적 접근법은 흐릿한 아티팩트로 인해 제한적이며, 최신 생성적 방법은 SDE 특성으로 인해 느린 샘플링 속도를 보입니다. 우리는 노이즈에서 시작하는 대신 입력 이미지에서 깊이 맵으로의 직접적인 매핑을 탐구합니다. 이를 위해 플로우 매칭을 효과적으로 활용할 수 있음을 관찰했습니다. 플로우 매칭은 솔루션 공간을 통한 직선 궤적을 제공하여 효율성과 높은 품질을 보장하기 때문입니다. 우리의 연구는 사전 훈련된 이미지 확산 모델이 플로우 매칭 깊이 모델에 대한 적절한 사전 지식으로 작용할 수 있음을 보여줍니다. 이를 통해 합성 데이터만으로 효율적으로 훈련하여 실제 이미지에 일반화할 수 있습니다. 또한 보조 표면 법선 손실이 깊이 추정을 더욱 개선하는 것을 발견했습니다. 우리의 접근법은 생성적 특성을 가지고 있기 때문에, 모델은 깊이 추정의 신뢰도를 안정적으로 예측합니다. 복잡한 자연 장면에 대한 표준 벤치마크에서, 우리의 경량 접근법은 적은 양의 합성 데이터로만 훈련되었음에도 불구하고 유리한 낮은 계산 비용으로 최신 성능을 보여줍니다.
English
Monocular depth estimation is crucial for numerous downstream vision tasks
and applications. Current discriminative approaches to this problem are limited
due to blurry artifacts, while state-of-the-art generative methods suffer from
slow sampling due to their SDE nature. Rather than starting from noise, we seek
a direct mapping from input image to depth map. We observe that this can be
effectively framed using flow matching, since its straight trajectories through
solution space offer efficiency and high quality. Our study demonstrates that a
pre-trained image diffusion model can serve as an adequate prior for a flow
matching depth model, allowing efficient training on only synthetic data to
generalize to real images. We find that an auxiliary surface normals loss
further improves the depth estimates. Due to the generative nature of our
approach, our model reliably predicts the confidence of its depth estimates. On
standard benchmarks of complex natural scenes, our lightweight approach
exhibits state-of-the-art performance at favorable low computational cost
despite only being trained on little synthetic data.Summary
AI-Generated Summary