Métrica de Profundidade Zero-Shot com um Modelo de Difusão Condicionado ao Campo de Visão
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
December 20, 2023
Autores: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI
Resumo
Embora os métodos para estimativa de profundidade monocular tenham avançado significativamente em benchmarks padrão, a estimativa de profundidade métrica zero-shot permanece sem solução. Os desafios incluem a modelagem conjunta de cenas internas e externas, que frequentemente exibem distribuições significativamente diferentes de RGB e profundidade, e a ambiguidade de escala de profundidade devido às intrínsecas desconhecidas da câmera. Trabalhos recentes propuseram arquiteturas especializadas de múltiplas cabeças para modelar conjuntamente cenas internas e externas. Em contraste, defendemos um modelo de difusão genérico e agnóstico à tarefa, com vários avanços, como a parametrização de profundidade em escala logarítmica para permitir a modelagem conjunta de cenas internas e externas, o condicionamento no campo de visão (FOV) para lidar com a ambiguidade de escala e a ampliação sintética do FOV durante o treinamento para generalizar além das intrínsecas limitadas da câmera nos conjuntos de dados de treinamento. Além disso, ao empregar uma mistura de treinamento mais diversificada do que o comum e uma parametrização eficiente de difusão, nosso método, DMD (Difusão para Profundidade Métrica), alcança uma redução de 25% no erro relativo (REL) em conjuntos de dados zero-shot internos e uma redução de 33% em conjuntos de dados zero-shot externos em relação ao estado da arte atual, utilizando apenas um pequeno número de etapas de remoção de ruído. Para uma visão geral, consulte https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on
standard benchmarks, zero-shot metric depth estimation remains unsolved.
Challenges include the joint modeling of indoor and outdoor scenes, which often
exhibit significantly different distributions of RGB and depth, and the
depth-scale ambiguity due to unknown camera intrinsics. Recent work has
proposed specialized multi-head architectures for jointly modeling indoor and
outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion
model, with several advancements such as log-scale depth parameterization to
enable joint modeling of indoor and outdoor scenes, conditioning on the
field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV
during training to generalize beyond the limited camera intrinsics in training
datasets. Furthermore, by employing a more diverse training mixture than is
common, and an efficient diffusion parameterization, our method, DMD (Diffusion
for Metric Depth) achieves a 25\% reduction in relative error (REL) on
zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the
current SOTA using only a small number of denoising steps. For an overview see
https://diffusion-vision.github.io/dmd