BetterDepth: Refinador de Difusão Plug-and-Play para Estimação de Profundidade Monocular sem Treinamento

Resumo

Ao treinar em conjuntos de dados em larga escala, os métodos de estimativa de profundidade monocular sem uso de rótulos (MDE) demonstram um desempenho robusto em ambientes naturais, mas frequentemente sofrem com detalhes insuficientemente precisos. Embora abordagens recentes de MDE baseadas em difusão exibam uma capacidade atrativa de extração de detalhes, ainda enfrentam dificuldades em cenas geometricamente desafiadoras devido à complexidade de obter informações geométricas robustas a partir de conjuntos de dados diversos. Para aproveitar os méritos complementares de ambos os mundos, propomos o BetterDepth para alcançar de forma eficiente um desempenho de MDE geometricamente correto e invariante a afinidades, capturando detalhes refinados. Especificamente, o BetterDepth é um refinador baseado em difusão condicional que utiliza a previsão de modelos de MDE pré-treinados como condicionamento de profundidade, no qual o contexto global de profundidade é bem capturado, refinando detalhes de forma iterativa com base na imagem de entrada. Para o treinamento desse refinador, propomos métodos de pré-alinhamento global e mascaramento de patches locais para garantir a fidelidade do BetterDepth ao condicionamento de profundidade, ao mesmo tempo em que aprende a capturar detalhes refinados da cena. Por meio de um treinamento eficiente em conjuntos de dados sintéticos em pequena escala, o BetterDepth alcança um desempenho de MDE sem uso de rótulos de ponta em diversos conjuntos de dados públicos e em cenas naturais. Além disso, o BetterDepth pode melhorar o desempenho de outros modelos de MDE de forma plug-and-play, sem necessidade de re-treinamento adicional.

English

By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.

BetterDepth: Refinador de Difusão Plug-and-Play para Estimação de Profundidade Monocular sem Treinamento

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Resumo

Summary

Support

Support