BetterDepth: Affinatore Plug-and-Play basato su Diffusione per la Stima della Profondità Monoculare Zero-Shot

Abstract

Addestrandosi su dataset su larga scala, i metodi di stima della profondità monoculare zero-shot (MDE) dimostrano prestazioni robuste in contesti reali, ma spesso soffrono di dettagli insufficientemente precisi. Sebbene i recenti approcci MDE basati su diffusione mostrino una capacità attraente di estrazione dei dettagli, faticano ancora in scene geometricamente complesse a causa della difficoltà di ottenere prior geometrici robusti da dataset diversificati. Per sfruttare i vantaggi complementari di entrambi gli approcci, proponiamo BetterDepth per ottenere in modo efficiente prestazioni MDE affini-invarianti geometricamente corrette, catturando al contempo dettagli fini. Nello specifico, BetterDepth è un affinatore basato su diffusione condizionale che prende la previsione da modelli MDE pre-addestrati come condizionamento della profondità, in cui il contesto globale della profondità è ben catturato, e affina iterativamente i dettagli basandosi sull'immagine di input. Per l'addestramento di tale affinatore, proponiamo metodi di pre-allineamento globale e mascheramento locale di patch per garantire la fedeltà di BetterDepth al condizionamento della profondità, imparando al contempo a catturare dettagli fini della scena. Grazie a un addestramento efficiente su piccoli dataset sintetici, BetterDepth raggiunge prestazioni zero-shot MDE all'avanguardia su vari dataset pubblici e scene reali. Inoltre, BetterDepth può migliorare le prestazioni di altri modelli MDE in modo plug-and-play senza ulteriori ri-addestramenti.

English

By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.

BetterDepth: Affinatore Plug-and-Play basato su Diffusione per la Stima della Profondità Monoculare Zero-Shot

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Abstract

Support