BetterDepth: Refinador de Difusão Plug-and-Play para Estimação de Profundidade Monocular sem Treinamento
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
July 25, 2024
Autores: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI
Resumo
Ao treinar em conjuntos de dados em larga escala, os métodos de estimativa de profundidade monocular sem uso de rótulos (MDE) demonstram um desempenho robusto em ambientes naturais, mas frequentemente sofrem com detalhes insuficientemente precisos. Embora abordagens recentes de MDE baseadas em difusão exibam uma capacidade atrativa de extração de detalhes, ainda enfrentam dificuldades em cenas geometricamente desafiadoras devido à complexidade de obter informações geométricas robustas a partir de conjuntos de dados diversos. Para aproveitar os méritos complementares de ambos os mundos, propomos o BetterDepth para alcançar de forma eficiente um desempenho de MDE geometricamente correto e invariante a afinidades, capturando detalhes refinados. Especificamente, o BetterDepth é um refinador baseado em difusão condicional que utiliza a previsão de modelos de MDE pré-treinados como condicionamento de profundidade, no qual o contexto global de profundidade é bem capturado, refinando detalhes de forma iterativa com base na imagem de entrada. Para o treinamento desse refinador, propomos métodos de pré-alinhamento global e mascaramento de patches locais para garantir a fidelidade do BetterDepth ao condicionamento de profundidade, ao mesmo tempo em que aprende a capturar detalhes refinados da cena. Por meio de um treinamento eficiente em conjuntos de dados sintéticos em pequena escala, o BetterDepth alcança um desempenho de MDE sem uso de rótulos de ponta em diversos conjuntos de dados públicos e em cenas naturais. Além disso, o BetterDepth pode melhorar o desempenho de outros modelos de MDE de forma plug-and-play, sem necessidade de re-treinamento adicional.
English
By training over large-scale datasets, zero-shot monocular depth estimation
(MDE) methods show robust performance in the wild but often suffer from
insufficiently precise details. Although recent diffusion-based MDE approaches
exhibit appealing detail extraction ability, they still struggle in
geometrically challenging scenes due to the difficulty of gaining robust
geometric priors from diverse datasets. To leverage the complementary merits of
both worlds, we propose BetterDepth to efficiently achieve geometrically
correct affine-invariant MDE performance while capturing fine-grained details.
Specifically, BetterDepth is a conditional diffusion-based refiner that takes
the prediction from pre-trained MDE models as depth conditioning, in which the
global depth context is well-captured, and iteratively refines details based on
the input image. For the training of such a refiner, we propose global
pre-alignment and local patch masking methods to ensure the faithfulness of
BetterDepth to depth conditioning while learning to capture fine-grained scene
details. By efficient training on small-scale synthetic datasets, BetterDepth
achieves state-of-the-art zero-shot MDE performance on diverse public datasets
and in-the-wild scenes. Moreover, BetterDepth can improve the performance of
other MDE models in a plug-and-play manner without additional re-training.Summary
AI-Generated Summary