ChatPaper.aiChatPaper

Zero-Shot Metrische Tiefenschätzung mit einem auf das Sichtfeld konditionierten Diffusionsmodell

Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

December 20, 2023
Autoren: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI

Zusammenfassung

Während Methoden zur monokularen Tiefenschätzung auf Standard-Benchmarks erhebliche Fortschritte gemacht haben, bleibt die null-Shot metrische Tiefenschätzung ungelöst. Zu den Herausforderungen gehören die gemeinsame Modellierung von Innen- und Außenszenen, die oft deutlich unterschiedliche Verteilungen von RGB und Tiefe aufweisen, sowie die Tiefenskalen-Ambiguïtät aufgrund unbekannter Kameraintrinsiken. Neuere Arbeiten haben spezialisierte Multi-Head-Architekturen für die gemeinsame Modellierung von Innen- und Außenszenen vorgeschlagen. Im Gegensatz dazu befürworten wir ein generisches, aufgabenunabhängiges Diffusionsmodell mit mehreren Verbesserungen, wie der Log-Skalen-Tiefenparametrisierung, um die gemeinsame Modellierung von Innen- und Außenszenen zu ermöglichen, der Konditionierung auf das Sichtfeld (FOV), um die Skalenambiguität zu behandeln, und der synthetischen Erweiterung des FOV während des Trainings, um über die begrenzten Kameraintrinsiken in den Trainingsdatensätzen hinaus zu generalisieren. Darüber hinaus erreicht unsere Methode, DMD (Diffusion for Metric Depth), durch den Einsatz einer vielfältigeren Trainingsmischung als üblich und einer effizienten Diffusionsparametrisierung eine Reduzierung des relativen Fehlers (REL) um 25 % bei null-Shot Innenraum- und 33 % bei null-Shot Außenraumdatensätzen gegenüber dem aktuellen State-of-the-Art (SOTA) unter Verwendung nur einer geringen Anzahl von Denoising-Schritten. Eine Übersicht finden Sie unter https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd
PDF284December 15, 2024