Marigold-DC : Complétion de profondeur monoculaire sans apprentissage avec diffusion guidée
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
December 18, 2024
Auteurs: Massimiliano Viola, Kevin Qu, Nando Metzger, Bingxin Ke, Alexander Becker, Konrad Schindler, Anton Obukhov
cs.AI
Résumé
La complétion de profondeur améliore les mesures de profondeur clairsemées en cartes de profondeur denses guidées par une image conventionnelle. Les méthodes existantes pour cette tâche hautement mal posée opèrent dans des paramètres strictement contraints et ont tendance à rencontrer des difficultés lorsqu'elles sont appliquées à des images en dehors du domaine d'entraînement ou lorsque les mesures de profondeur disponibles sont clairsemées, distribuées de manière irrégulière ou de densité variable. Inspirés par les avancées récentes en estimation de profondeur monoculaire, nous reformulons la complétion de profondeur comme une génération de carte de profondeur conditionnée par une image guidée par des mesures clairsemées. Notre méthode, Marigold-DC, s'appuie sur un modèle de diffusion latente pré-entraîné pour l'estimation de profondeur monoculaire et injecte les observations de profondeur en tant que guidage au moment du test via un schéma d'optimisation qui s'exécute en parallèle avec l'inférence itérative de la diffusion de débruitage. La méthode présente une excellente généralisation zéro-shot à travers une gamme diversifiée d'environnements et gère même efficacement un guidage extrêmement clairsemé. Nos résultats suggèrent que les a priori de profondeur monoculaire contemporains renforcent considérablement la complétion de profondeur : il peut être préférable de considérer la tâche comme la récupération de profondeur dense à partir de pixels d'image (denses), guidée par une profondeur clairsemée ; plutôt que comme un remplissage de profondeur (clairsemée), guidé par une image. Site web du projet : https://MarigoldDepthCompletion.github.io/
English
Depth completion upgrades sparse depth measurements into dense depth maps
guided by a conventional image. Existing methods for this highly ill-posed task
operate in tightly constrained settings and tend to struggle when applied to
images outside the training domain or when the available depth measurements are
sparse, irregularly distributed, or of varying density. Inspired by recent
advances in monocular depth estimation, we reframe depth completion as an
image-conditional depth map generation guided by sparse measurements. Our
method, Marigold-DC, builds on a pretrained latent diffusion model for
monocular depth estimation and injects the depth observations as test-time
guidance via an optimization scheme that runs in tandem with the iterative
inference of denoising diffusion. The method exhibits excellent zero-shot
generalization across a diverse range of environments and handles even
extremely sparse guidance effectively. Our results suggest that contemporary
monocular depth priors greatly robustify depth completion: it may be better to
view the task as recovering dense depth from (dense) image pixels, guided by
sparse depth; rather than as inpainting (sparse) depth, guided by an image.
Project website: https://MarigoldDepthCompletion.github.io/Summary
AI-Generated Summary