Zero-Shot Metrische Diepte met een Diffusiemodel Geconditioneerd op Gezichtsveld
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
December 20, 2023
Auteurs: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI
Samenvatting
Hoewel methoden voor monoculaire diepteschatting aanzienlijke vooruitgang hebben geboekt op standaard benchmarks, blijft zero-shot metrische diepteschatting een onopgelost probleem. Uitdagingen omvatten het gezamenlijk modelleren van binnen- en buitenscènes, die vaak aanzienlijk verschillende verdelingen van RGB en diepte vertonen, en de diepteschaalambiguïteit als gevolg van onbekende camera-intrinsieken. Recent werk heeft gespecialiseerde multi-head-architecturen voorgesteld voor het gezamenlijk modelleren van binnen- en buitenscènes. Daarentegen pleiten wij voor een generiek, taak-agnostisch diffusiemodel, met verschillende verbeteringen zoals logaritmische diepteparameterisatie om gezamenlijke modellering van binnen- en buitenscènes mogelijk te maken, conditionering op het gezichtsveld (FOV) om schaalambiguïteit aan te pakken en synthetische augmentatie van FOV tijdens de training om generalisatie mogelijk te maken buiten de beperkte camera-intrinsieken in trainingsdatasets. Bovendien bereikt onze methode, DMD (Diffusion for Metric Depth), door het gebruik van een meer diverse trainingsmix dan gebruikelijk en een efficiënte diffusieparameterisatie, een reductie van 25% in relatieve fout (REL) op zero-shot binnenscènes en een reductie van 33% op zero-shot buitenscène datasets ten opzichte van de huidige state-of-the-art, met slechts een klein aantal denoiseringsstappen. Voor een overzicht zie https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on
standard benchmarks, zero-shot metric depth estimation remains unsolved.
Challenges include the joint modeling of indoor and outdoor scenes, which often
exhibit significantly different distributions of RGB and depth, and the
depth-scale ambiguity due to unknown camera intrinsics. Recent work has
proposed specialized multi-head architectures for jointly modeling indoor and
outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion
model, with several advancements such as log-scale depth parameterization to
enable joint modeling of indoor and outdoor scenes, conditioning on the
field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV
during training to generalize beyond the limited camera intrinsics in training
datasets. Furthermore, by employing a more diverse training mixture than is
common, and an efficient diffusion parameterization, our method, DMD (Diffusion
for Metric Depth) achieves a 25\% reduction in relative error (REL) on
zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the
current SOTA using only a small number of denoising steps. For an overview see
https://diffusion-vision.github.io/dmd