ChatPaper.aiChatPaper

BetterDepth: Плаг-энд-плей диффузионный рефайнер для нулевой моноцелевой оценки глубины.

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

July 25, 2024
Авторы: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI

Аннотация

Обучаясь на обширных наборах данных, методы нулевой моноцулярной оценки глубины (MDE) демонстрируют надежные результаты в реальных условиях, но часто страдают от недостаточно точных деталей. Хотя недавние подходы к MDE на основе диффузии обладают привлекательной способностью извлечения деталей, они все еще испытывают трудности в геометрически сложных сценах из-за сложности получения надежных геометрических априорных данных из разнообразных наборов данных. Для того чтобы использовать дополняющие преимущества обоих подходов, мы предлагаем BetterDepth для эффективного достижения геометрически правильной производительности MDE, инвариантной к аффинным преобразованиям, сохраняя при этом мелкозернистые детали. Конкретно, BetterDepth представляет собой условный диффузионный улучшитель, который принимает прогноз от предварительно обученных моделей MDE в качестве условия глубины, где глобальный контекст глубины хорошо учитывается, и итеративно улучшает детали на основе входного изображения. Для обучения такого улучшителя мы предлагаем методы глобального предварительного выравнивания и локальной маскировки патчей для обеспечения верности BetterDepth к условиям глубины при обучении захвата мелкозернистых деталей сцены. Благодаря эффективному обучению на небольших синтетических наборах данных, BetterDepth достигает передовой производительности нулевой MDE на разнообразных общедоступных наборах данных и сценах в естественных условиях. Более того, BetterDepth может улучшить производительность других моделей MDE путем простого подключения без дополнительного повторного обучения.
English
By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.

Summary

AI-Generated Summary

PDF337November 28, 2024