Metriche di Profondità Zero-Shot con un Modello di Diffusione Condizionato al Campo Visivo
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
December 20, 2023
Autori: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI
Abstract
Sebbene i metodi per la stima della profondità monoculare abbiano compiuto progressi significativi sui benchmark standard, la stima metrica della profondità zero-shot rimane un problema irrisolto. Le sfide includono la modellazione congiunta di scene indoor e outdoor, che spesso presentano distribuzioni significativamente diverse di RGB e profondità, e l'ambiguità della scala di profondità dovuta alle intrinseche della camera sconosciute. Recenti lavori hanno proposto architetture multi-head specializzate per la modellazione congiunta di scene indoor e outdoor. Al contrario, noi sosteniamo un modello di diffusione generico e agnostico rispetto al compito, con diversi miglioramenti come la parametrizzazione della profondità in scala logaritmica per consentire la modellazione congiunta di scene indoor e outdoor, il condizionamento sul campo visivo (FOV) per gestire l'ambiguità della scala e l'aumento sintetico del FOV durante l'addestramento per generalizzare oltre le limitate intrinseche della camera nei dataset di addestramento. Inoltre, utilizzando una miscela di addestramento più diversificata rispetto a quanto è comune e una parametrizzazione efficiente della diffusione, il nostro metodo, DMD (Diffusion for Metric Depth), ottiene una riduzione del 25% dell'errore relativo (REL) sui dataset zero-shot indoor e del 33% sui dataset zero-shot outdoor rispetto allo stato dell'arte attuale, utilizzando solo un numero ridotto di passi di denoising. Per una panoramica, consultare https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on
standard benchmarks, zero-shot metric depth estimation remains unsolved.
Challenges include the joint modeling of indoor and outdoor scenes, which often
exhibit significantly different distributions of RGB and depth, and the
depth-scale ambiguity due to unknown camera intrinsics. Recent work has
proposed specialized multi-head architectures for jointly modeling indoor and
outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion
model, with several advancements such as log-scale depth parameterization to
enable joint modeling of indoor and outdoor scenes, conditioning on the
field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV
during training to generalize beyond the limited camera intrinsics in training
datasets. Furthermore, by employing a more diverse training mixture than is
common, and an efficient diffusion parameterization, our method, DMD (Diffusion
for Metric Depth) achieves a 25\% reduction in relative error (REL) on
zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the
current SOTA using only a small number of denoising steps. For an overview see
https://diffusion-vision.github.io/dmd