ChatPaper.aiChatPaper

BetterDepth: Plug-and-Play Diffusieverfijner voor Zero-Shot Monoculaire Diepte-inschatting

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

July 25, 2024
Auteurs: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI

Samenvatting

Door training op grootschalige datasets tonen zero-shot monocular depth estimation (MDE) methoden robuuste prestaties in natuurlijke omgevingen, maar lijden ze vaak onder onvoldoende precieze details. Hoewel recente op diffusie gebaseerde MDE-benaderingen aantrekkelijke detail-extractiecapaciteiten vertonen, hebben ze nog steeds moeite in geometrisch uitdagende scènes vanwege de moeilijkheid om robuuste geometrische priors te verkrijgen uit diverse datasets. Om de complementaire voordelen van beide werelden te benutten, stellen we BetterDepth voor om efficiënt geometrisch correcte affiene-invariante MDE-prestaties te bereiken terwijl fijnmazige details worden vastgelegd. Specifiek is BetterDepth een conditioneel op diffusie gebaseerde verfijner die de voorspelling van vooraf getrainde MDE-modellen neemt als dieptevoorwaarde, waarbij de globale dieptecontext goed wordt vastgelegd, en die iteratief details verfijnt op basis van de invoerafbeelding. Voor de training van zo'n verfijner stellen we globale pre-alignering en lokale patch-masking methoden voor om de trouw van BetterDepth aan de dieptevoorwaarde te waarborgen terwijl het leert om fijnmazige scènedetails vast te leggen. Door efficiënte training op kleinschalige synthetische datasets bereikt BetterDepth state-of-the-art zero-shot MDE-prestaties op diverse openbare datasets en in natuurlijke scènes. Bovendien kan BetterDepth de prestaties van andere MDE-modellen verbeteren op een plug-and-play-manier zonder aanvullende hertraining.
English
By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.
PDF327February 7, 2026