Удивительная эффективность диффузионных моделей для оценки оптического потока и монокулярной глубины
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
June 2, 2023
Авторы: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI
Аннотация
Денойзинговые диффузионные вероятностные модели произвели революцию в генерации изображений благодаря своей впечатляющей точности и разнообразию. Мы демонстрируем, что они также превосходно справляются с оценкой оптического потока и монохромной глубины, что удивительно, без использования специализированных архитектур и функций потерь, которые традиционно применяются для этих задач. В отличие от точечных оценок, характерных для классических регрессионных методов, диффузионные модели также позволяют проводить Монте-Карло-вывод, например, учитывая неопределенность и неоднозначность в потоке и глубине. Благодаря самоконтролируемому предварительному обучению, комбинированному использованию синтетических и реальных данных для контролируемого обучения, а также техническим инновациям (заполнение пропусков и пошаговое денойзинговое диффузионное обучение) для работы с зашумленными и неполными обучающими данными, а также простой форме постепенного уточнения, можно обучить современные диффузионные модели для оценки глубины и оптического потока. Обширные эксперименты сосредоточены на количественной производительности по сравнению с эталонными тестами, анализе влияния различных компонентов, а также на способности модели учитывать неопределенность и многомодальность, а также восстанавливать пропущенные значения. Наша модель, DDVM (Denoising Diffusion Vision Model), достигает современного уровня относительной ошибки глубины 0.074 на тесте NYU для помещений и показателя Fl-all 3.26\% на тесте KITTI для оптического потока, что примерно на 25\% лучше, чем у лучшего опубликованного метода. Обзор доступен по ссылке: https://diffusion-vision.github.io.
English
Denoising diffusion probabilistic models have transformed image generation
with their impressive fidelity and diversity. We show that they also excel in
estimating optical flow and monocular depth, surprisingly, without
task-specific architectures and loss functions that are predominant for these
tasks. Compared to the point estimates of conventional regression-based
methods, diffusion models also enable Monte Carlo inference, e.g., capturing
uncertainty and ambiguity in flow and depth. With self-supervised pre-training,
the combined use of synthetic and real data for supervised training, and
technical innovations (infilling and step-unrolled denoising diffusion
training) to handle noisy-incomplete training data, and a simple form of
coarse-to-fine refinement, one can train state-of-the-art diffusion models for
depth and optical flow estimation. Extensive experiments focus on quantitative
performance against benchmarks, ablations, and the model's ability to capture
uncertainty and multimodality, and impute missing values. Our model, DDVM
(Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth
error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\%
on the KITTI optical flow benchmark, about 25\% better than the best published
method. For an overview see https://diffusion-vision.github.io.