BetterDepth: Einstecken und Spielen Diffusionsverfeiner für Null-Schuss Monokulare Tiefenschätzung
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
July 25, 2024
papers.authors: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI
papers.abstract
Durch das Training über umfangreiche Datensätze zeigen Zero-Shot-Monokular-Tiefenschätzungsverfahren (MDE) robuste Leistungen in der Wildnis, leiden jedoch oft unter unzureichend präzisen Details. Obwohl neuere diffusionsbasierte MDE-Ansätze eine ansprechende Fähigkeit zur Detailextraktion aufweisen, haben sie immer noch Schwierigkeiten in geometrisch anspruchsvollen Szenen aufgrund der Schwierigkeit, robuste geometrische Vorkenntnisse aus vielfältigen Datensätzen zu gewinnen. Um die ergänzenden Vorteile beider Welten zu nutzen, schlagen wir BetterDepth vor, um auf effiziente Weise eine geometrisch korrekte, affin-invariante MDE-Leistung zu erzielen, während feinste Details erfasst werden. Konkret handelt es sich bei BetterDepth um einen bedingten diffusionsbasierten Verfeinerer, der die Vorhersage von vorab trainierten MDE-Modellen als Tiefenkonditionierung verwendet, wobei der globale Tiefenzusammenhang gut erfasst wird und Details iterativ basierend auf dem Eingabebild verfeinert werden. Für das Training eines solchen Verfeinerers schlagen wir globale Vorabausrichtungs- und lokale Patchmaskierungsmethoden vor, um die Treue von BetterDepth zur Tiefenkonditionierung sicherzustellen, während gelernt wird, feinste Szenendetails zu erfassen. Durch effizientes Training auf kleinen synthetischen Datensätzen erzielt BetterDepth eine Spitzenleistung bei Zero-Shot-MDE auf vielfältigen öffentlichen Datensätzen und in Wildszenen. Darüber hinaus kann BetterDepth die Leistung anderer MDE-Modelle auf einfache Weise verbessern, ohne dass zusätzliches Neutraining erforderlich ist.
English
By training over large-scale datasets, zero-shot monocular depth estimation
(MDE) methods show robust performance in the wild but often suffer from
insufficiently precise details. Although recent diffusion-based MDE approaches
exhibit appealing detail extraction ability, they still struggle in
geometrically challenging scenes due to the difficulty of gaining robust
geometric priors from diverse datasets. To leverage the complementary merits of
both worlds, we propose BetterDepth to efficiently achieve geometrically
correct affine-invariant MDE performance while capturing fine-grained details.
Specifically, BetterDepth is a conditional diffusion-based refiner that takes
the prediction from pre-trained MDE models as depth conditioning, in which the
global depth context is well-captured, and iteratively refines details based on
the input image. For the training of such a refiner, we propose global
pre-alignment and local patch masking methods to ensure the faithfulness of
BetterDepth to depth conditioning while learning to capture fine-grained scene
details. By efficient training on small-scale synthetic datasets, BetterDepth
achieves state-of-the-art zero-shot MDE performance on diverse public datasets
and in-the-wild scenes. Moreover, BetterDepth can improve the performance of
other MDE models in a plug-and-play manner without additional re-training.