Marigold-DC : Complétion de profondeur monoculaire sans apprentissage avec diffusion guidée

Résumé

La complétion de profondeur améliore les mesures de profondeur clairsemées en cartes de profondeur denses guidées par une image conventionnelle. Les méthodes existantes pour cette tâche hautement mal posée opèrent dans des paramètres strictement contraints et ont tendance à rencontrer des difficultés lorsqu'elles sont appliquées à des images en dehors du domaine d'entraînement ou lorsque les mesures de profondeur disponibles sont clairsemées, distribuées de manière irrégulière ou de densité variable. Inspirés par les avancées récentes en estimation de profondeur monoculaire, nous reformulons la complétion de profondeur comme une génération de carte de profondeur conditionnée par une image guidée par des mesures clairsemées. Notre méthode, Marigold-DC, s'appuie sur un modèle de diffusion latente pré-entraîné pour l'estimation de profondeur monoculaire et injecte les observations de profondeur en tant que guidage au moment du test via un schéma d'optimisation qui s'exécute en parallèle avec l'inférence itérative de la diffusion de débruitage. La méthode présente une excellente généralisation zéro-shot à travers une gamme diversifiée d'environnements et gère même efficacement un guidage extrêmement clairsemé. Nos résultats suggèrent que les a priori de profondeur monoculaire contemporains renforcent considérablement la complétion de profondeur : il peut être préférable de considérer la tâche comme la récupération de profondeur dense à partir de pixels d'image (denses), guidée par une profondeur clairsemée ; plutôt que comme un remplissage de profondeur (clairsemée), guidé par une image. Site web du projet : https://MarigoldDepthCompletion.github.io/

English

Depth completion upgrades sparse depth measurements into dense depth maps guided by a conventional image. Existing methods for this highly ill-posed task operate in tightly constrained settings and tend to struggle when applied to images outside the training domain or when the available depth measurements are sparse, irregularly distributed, or of varying density. Inspired by recent advances in monocular depth estimation, we reframe depth completion as an image-conditional depth map generation guided by sparse measurements. Our method, Marigold-DC, builds on a pretrained latent diffusion model for monocular depth estimation and injects the depth observations as test-time guidance via an optimization scheme that runs in tandem with the iterative inference of denoising diffusion. The method exhibits excellent zero-shot generalization across a diverse range of environments and handles even extremely sparse guidance effectively. Our results suggest that contemporary monocular depth priors greatly robustify depth completion: it may be better to view the task as recovering dense depth from (dense) image pixels, guided by sparse depth; rather than as inpainting (sparse) depth, guided by an image. Project website: https://MarigoldDepthCompletion.github.io/

Marigold-DC : Complétion de profondeur monoculaire sans apprentissage avec diffusion guidée

Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion

Résumé

Support