Метрическое определение глубины с нулевым обучением с использованием диффузионной модели, учитывающей поле зрения

Аннотация

Хотя методы оценки глубины по одному изображению достигли значительных успехов на стандартных тестовых наборах, задача оценки метрической глубины в условиях нулевого обучения (zero-shot) остается нерешенной. Основные трудности включают совместное моделирование сцен в помещении и на открытом воздухе, которые часто демонстрируют существенно разные распределения RGB и глубины, а также неоднозначность масштаба глубины из-за неизвестных внутренних параметров камеры. В последних работах предлагались специализированные многоголовые архитектуры для совместного моделирования сцен в помещении и на открытом воздухе. В отличие от этого, мы предлагаем универсальную, не зависящую от задачи диффузионную модель с рядом улучшений, таких как параметризация глубины в логарифмическом масштабе для совместного моделирования сцен в помещении и на открытом воздухе, использование поля зрения (FOV) для устранения неоднозначности масштаба и синтетическое увеличение FOV во время обучения для обобщения за пределы ограниченных внутренних параметров камеры в обучающих наборах данных. Кроме того, благодаря использованию более разнообразной обучающей смеси, чем обычно, и эффективной параметризации диффузии, наш метод DMD (Diffusion for Metric Depth) достигает снижения относительной ошибки (REL) на 25% для нулевого обучения в помещении и на 33% для нулевого обучения на открытом воздухе по сравнению с текущим состоянием искусства (SOTA), используя лишь небольшое количество шагов шумоподавления. Обзор доступен по ссылке: https://diffusion-vision.github.io/dmd.

English

While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd

Метрическое определение глубины с нулевым обучением с использованием диффузионной модели, учитывающей поле зрения

Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Аннотация

Support