Marigold-DC: Nullschuss-Monokulare Tiefenvervollständigung mit geführter Diffusion
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
December 18, 2024
Autoren: Massimiliano Viola, Kevin Qu, Nando Metzger, Bingxin Ke, Alexander Becker, Konrad Schindler, Anton Obukhov
cs.AI
Zusammenfassung
Die Tiefenabschlussmethode verbessert spärliche Tiefenmessungen zu dichten Tiefenkarten, die von einem konventionellen Bild geleitet werden. Bestehende Methoden für diese stark schlecht gestellte Aufgabe arbeiten in eng begrenzten Einstellungen und haben Schwierigkeiten, wenn sie auf Bilder außerhalb des Trainingsbereichs angewendet werden oder wenn die verfügbaren Tiefenmessungen spärlich, unregelmäßig verteilt oder unterschiedlich dicht sind. Inspiriert von den jüngsten Fortschritten in der monokularen Tiefenschätzung, formulieren wir den Tiefenabschluss als eine bildbedingte Tiefenkarten-Generierung, die von spärlichen Messungen geleitet wird. Unsere Methode, Marigold-DC, baut auf einem vorab trainierten latenten Diffusionsmodell für monokulare Tiefenschätzung auf und injiziert die Tiefenbeobachtungen als Testzeit-Hilfe über ein Optimierungsschema, das parallel zur iterativen Inferenz der Rauschunterdrückungs-Diffusion läuft. Die Methode zeigt eine ausgezeichnete Generalisierung ohne vorheriges Training über eine vielfältige Palette von Umgebungen und bewältigt sogar extrem spärliche Anleitungen effektiv. Unsere Ergebnisse legen nahe, dass zeitgenössische monokulare Tiefenprioritäten den Tiefenabschluss erheblich robuster machen: Es könnte besser sein, die Aufgabe als Wiederherstellung dichter Tiefe aus (dichten) Bildpixeln zu betrachten, geleitet von spärlicher Tiefe; anstatt als Auffüllen (spärlicher) Tiefe, geleitet von einem Bild. Projektwebsite: https://MarigoldDepthCompletion.github.io/
English
Depth completion upgrades sparse depth measurements into dense depth maps
guided by a conventional image. Existing methods for this highly ill-posed task
operate in tightly constrained settings and tend to struggle when applied to
images outside the training domain or when the available depth measurements are
sparse, irregularly distributed, or of varying density. Inspired by recent
advances in monocular depth estimation, we reframe depth completion as an
image-conditional depth map generation guided by sparse measurements. Our
method, Marigold-DC, builds on a pretrained latent diffusion model for
monocular depth estimation and injects the depth observations as test-time
guidance via an optimization scheme that runs in tandem with the iterative
inference of denoising diffusion. The method exhibits excellent zero-shot
generalization across a diverse range of environments and handles even
extremely sparse guidance effectively. Our results suggest that contemporary
monocular depth priors greatly robustify depth completion: it may be better to
view the task as recovering dense depth from (dense) image pixels, guided by
sparse depth; rather than as inpainting (sparse) depth, guided by an image.
Project website: https://MarigoldDepthCompletion.github.io/Summary
AI-Generated Summary