Metriche di Profondità Zero-Shot con un Modello di Diffusione Condizionato al Campo Visivo

Abstract

Sebbene i metodi per la stima della profondità monoculare abbiano compiuto progressi significativi sui benchmark standard, la stima metrica della profondità zero-shot rimane un problema irrisolto. Le sfide includono la modellazione congiunta di scene indoor e outdoor, che spesso presentano distribuzioni significativamente diverse di RGB e profondità, e l'ambiguità della scala di profondità dovuta alle intrinseche della camera sconosciute. Recenti lavori hanno proposto architetture multi-head specializzate per la modellazione congiunta di scene indoor e outdoor. Al contrario, noi sosteniamo un modello di diffusione generico e agnostico rispetto al compito, con diversi miglioramenti come la parametrizzazione della profondità in scala logaritmica per consentire la modellazione congiunta di scene indoor e outdoor, il condizionamento sul campo visivo (FOV) per gestire l'ambiguità della scala e l'aumento sintetico del FOV durante l'addestramento per generalizzare oltre le limitate intrinseche della camera nei dataset di addestramento. Inoltre, utilizzando una miscela di addestramento più diversificata rispetto a quanto è comune e una parametrizzazione efficiente della diffusione, il nostro metodo, DMD (Diffusion for Metric Depth), ottiene una riduzione del 25% dell'errore relativo (REL) sui dataset zero-shot indoor e del 33% sui dataset zero-shot outdoor rispetto allo stato dell'arte attuale, utilizzando solo un numero ridotto di passi di denoising. Per una panoramica, consultare https://diffusion-vision.github.io/dmd.

English

While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd

Metriche di Profondità Zero-Shot con un Modello di Diffusione Condizionato al Campo Visivo

Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Abstract

Support