ChatPaper.aiChatPaper

Метрическое определение глубины с нулевым обучением с использованием диффузионной модели, учитывающей поле зрения

Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

December 20, 2023
Авторы: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI

Аннотация

Хотя методы оценки глубины по одному изображению достигли значительных успехов на стандартных тестовых наборах, задача оценки метрической глубины в условиях нулевого обучения (zero-shot) остается нерешенной. Основные трудности включают совместное моделирование сцен в помещении и на открытом воздухе, которые часто демонстрируют существенно разные распределения RGB и глубины, а также неоднозначность масштаба глубины из-за неизвестных внутренних параметров камеры. В последних работах предлагались специализированные многоголовые архитектуры для совместного моделирования сцен в помещении и на открытом воздухе. В отличие от этого, мы предлагаем универсальную, не зависящую от задачи диффузионную модель с рядом улучшений, таких как параметризация глубины в логарифмическом масштабе для совместного моделирования сцен в помещении и на открытом воздухе, использование поля зрения (FOV) для устранения неоднозначности масштаба и синтетическое увеличение FOV во время обучения для обобщения за пределы ограниченных внутренних параметров камеры в обучающих наборах данных. Кроме того, благодаря использованию более разнообразной обучающей смеси, чем обычно, и эффективной параметризации диффузии, наш метод DMD (Diffusion for Metric Depth) достигает снижения относительной ошибки (REL) на 25% для нулевого обучения в помещении и на 33% для нулевого обучения на открытом воздухе по сравнению с текущим состоянием искусства (SOTA), используя лишь небольшое количество шагов шумоподавления. Обзор доступен по ссылке: https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd
PDF284December 15, 2024