Метрическое определение глубины с нулевым обучением с использованием диффузионной модели, учитывающей поле зрения
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
December 20, 2023
Авторы: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI
Аннотация
Хотя методы оценки глубины по одному изображению достигли значительных успехов на стандартных тестовых наборах, задача оценки метрической глубины в условиях нулевого обучения (zero-shot) остается нерешенной. Основные трудности включают совместное моделирование сцен в помещении и на открытом воздухе, которые часто демонстрируют существенно разные распределения RGB и глубины, а также неоднозначность масштаба глубины из-за неизвестных внутренних параметров камеры. В последних работах предлагались специализированные многоголовые архитектуры для совместного моделирования сцен в помещении и на открытом воздухе. В отличие от этого, мы предлагаем универсальную, не зависящую от задачи диффузионную модель с рядом улучшений, таких как параметризация глубины в логарифмическом масштабе для совместного моделирования сцен в помещении и на открытом воздухе, использование поля зрения (FOV) для устранения неоднозначности масштаба и синтетическое увеличение FOV во время обучения для обобщения за пределы ограниченных внутренних параметров камеры в обучающих наборах данных. Кроме того, благодаря использованию более разнообразной обучающей смеси, чем обычно, и эффективной параметризации диффузии, наш метод DMD (Diffusion for Metric Depth) достигает снижения относительной ошибки (REL) на 25% для нулевого обучения в помещении и на 33% для нулевого обучения на открытом воздухе по сравнению с текущим состоянием искусства (SOTA), используя лишь небольшое количество шагов шумоподавления. Обзор доступен по ссылке: https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on
standard benchmarks, zero-shot metric depth estimation remains unsolved.
Challenges include the joint modeling of indoor and outdoor scenes, which often
exhibit significantly different distributions of RGB and depth, and the
depth-scale ambiguity due to unknown camera intrinsics. Recent work has
proposed specialized multi-head architectures for jointly modeling indoor and
outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion
model, with several advancements such as log-scale depth parameterization to
enable joint modeling of indoor and outdoor scenes, conditioning on the
field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV
during training to generalize beyond the limited camera intrinsics in training
datasets. Furthermore, by employing a more diverse training mixture than is
common, and an efficient diffusion parameterization, our method, DMD (Diffusion
for Metric Depth) achieves a 25\% reduction in relative error (REL) on
zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the
current SOTA using only a small number of denoising steps. For an overview see
https://diffusion-vision.github.io/dmd