BetterDepth : Module de raffinement par diffusion prêt à l'emploi pour l'estimation de profondeur monoculaire en contexte zéro-shot
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
July 25, 2024
Auteurs: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI
Résumé
En s'entraînant sur des ensembles de données à grande échelle, les méthodes d'estimation de profondeur monoculaire sans étiquettes (MDE) montrent des performances robustes dans des environnements variés, mais souffrent souvent d'un manque de précision dans les détails. Bien que les approches récentes basées sur la diffusion présentent une capacité attrayante d'extraction de détails, elles peinent encore dans des scènes géométriquement complexes en raison de la difficulté à obtenir des préconceptions géométriques robustes à partir de jeux de données diversifiés. Pour exploiter les avantages complémentaires de ces deux approches, nous proposons BetterDepth, qui permet d'atteindre efficacement des performances d'estimation de profondeur affine-invariante géométriquement correcte tout en capturant des détails fins. Concrètement, BetterDepth est un raffineur conditionnel basé sur la diffusion qui prend la prédiction des modèles MDE pré-entraînés comme conditionnement de profondeur, où le contexte global de la profondeur est bien capturé, et affine itérativement les détails en fonction de l'image d'entrée. Pour l'entraînement d'un tel raffineur, nous proposons des méthodes de pré-alignement global et de masquage local par patchs afin de garantir la fidélité de BetterDepth au conditionnement de profondeur tout en apprenant à capturer les détails fins de la scène. Grâce à un entraînement efficace sur des ensembles de données synthétiques de petite taille, BetterDepth atteint des performances de pointe en estimation de profondeur sans étiquettes sur divers jeux de données publics et dans des scènes réelles. De plus, BetterDepth peut améliorer les performances d'autres modèles MDE de manière plug-and-play sans nécessiter de ré-entraînement supplémentaire.
English
By training over large-scale datasets, zero-shot monocular depth estimation
(MDE) methods show robust performance in the wild but often suffer from
insufficiently precise details. Although recent diffusion-based MDE approaches
exhibit appealing detail extraction ability, they still struggle in
geometrically challenging scenes due to the difficulty of gaining robust
geometric priors from diverse datasets. To leverage the complementary merits of
both worlds, we propose BetterDepth to efficiently achieve geometrically
correct affine-invariant MDE performance while capturing fine-grained details.
Specifically, BetterDepth is a conditional diffusion-based refiner that takes
the prediction from pre-trained MDE models as depth conditioning, in which the
global depth context is well-captured, and iteratively refines details based on
the input image. For the training of such a refiner, we propose global
pre-alignment and local patch masking methods to ensure the faithfulness of
BetterDepth to depth conditioning while learning to capture fine-grained scene
details. By efficient training on small-scale synthetic datasets, BetterDepth
achieves state-of-the-art zero-shot MDE performance on diverse public datasets
and in-the-wild scenes. Moreover, BetterDepth can improve the performance of
other MDE models in a plug-and-play manner without additional re-training.Summary
AI-Generated Summary