BetterDepth: Affinatore Plug-and-Play basato su Diffusione per la Stima della Profondità Monoculare Zero-Shot
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
July 25, 2024
Autori: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI
Abstract
Addestrandosi su dataset su larga scala, i metodi di stima della profondità monoculare zero-shot (MDE) dimostrano prestazioni robuste in contesti reali, ma spesso soffrono di dettagli insufficientemente precisi. Sebbene i recenti approcci MDE basati su diffusione mostrino una capacità attraente di estrazione dei dettagli, faticano ancora in scene geometricamente complesse a causa della difficoltà di ottenere prior geometrici robusti da dataset diversificati. Per sfruttare i vantaggi complementari di entrambi gli approcci, proponiamo BetterDepth per ottenere in modo efficiente prestazioni MDE affini-invarianti geometricamente corrette, catturando al contempo dettagli fini. Nello specifico, BetterDepth è un affinatore basato su diffusione condizionale che prende la previsione da modelli MDE pre-addestrati come condizionamento della profondità, in cui il contesto globale della profondità è ben catturato, e affina iterativamente i dettagli basandosi sull'immagine di input. Per l'addestramento di tale affinatore, proponiamo metodi di pre-allineamento globale e mascheramento locale di patch per garantire la fedeltà di BetterDepth al condizionamento della profondità, imparando al contempo a catturare dettagli fini della scena. Grazie a un addestramento efficiente su piccoli dataset sintetici, BetterDepth raggiunge prestazioni zero-shot MDE all'avanguardia su vari dataset pubblici e scene reali. Inoltre, BetterDepth può migliorare le prestazioni di altri modelli MDE in modo plug-and-play senza ulteriori ri-addestramenti.
English
By training over large-scale datasets, zero-shot monocular depth estimation
(MDE) methods show robust performance in the wild but often suffer from
insufficiently precise details. Although recent diffusion-based MDE approaches
exhibit appealing detail extraction ability, they still struggle in
geometrically challenging scenes due to the difficulty of gaining robust
geometric priors from diverse datasets. To leverage the complementary merits of
both worlds, we propose BetterDepth to efficiently achieve geometrically
correct affine-invariant MDE performance while capturing fine-grained details.
Specifically, BetterDepth is a conditional diffusion-based refiner that takes
the prediction from pre-trained MDE models as depth conditioning, in which the
global depth context is well-captured, and iteratively refines details based on
the input image. For the training of such a refiner, we propose global
pre-alignment and local patch masking methods to ensure the faithfulness of
BetterDepth to depth conditioning while learning to capture fine-grained scene
details. By efficient training on small-scale synthetic datasets, BetterDepth
achieves state-of-the-art zero-shot MDE performance on diverse public datasets
and in-the-wild scenes. Moreover, BetterDepth can improve the performance of
other MDE models in a plug-and-play manner without additional re-training.