Удивительная эффективность диффузионных моделей для оценки оптического потока и монокулярной глубины

Аннотация

Денойзинговые диффузионные вероятностные модели произвели революцию в генерации изображений благодаря своей впечатляющей точности и разнообразию. Мы демонстрируем, что они также превосходно справляются с оценкой оптического потока и монохромной глубины, что удивительно, без использования специализированных архитектур и функций потерь, которые традиционно применяются для этих задач. В отличие от точечных оценок, характерных для классических регрессионных методов, диффузионные модели также позволяют проводить Монте-Карло-вывод, например, учитывая неопределенность и неоднозначность в потоке и глубине. Благодаря самоконтролируемому предварительному обучению, комбинированному использованию синтетических и реальных данных для контролируемого обучения, а также техническим инновациям (заполнение пропусков и пошаговое денойзинговое диффузионное обучение) для работы с зашумленными и неполными обучающими данными, а также простой форме постепенного уточнения, можно обучить современные диффузионные модели для оценки глубины и оптического потока. Обширные эксперименты сосредоточены на количественной производительности по сравнению с эталонными тестами, анализе влияния различных компонентов, а также на способности модели учитывать неопределенность и многомодальность, а также восстанавливать пропущенные значения. Наша модель, DDVM (Denoising Diffusion Vision Model), достигает современного уровня относительной ошибки глубины 0.074 на тесте NYU для помещений и показателя Fl-all 3.26\% на тесте KITTI для оптического потока, что примерно на 25\% лучше, чем у лучшего опубликованного метода. Обзор доступен по ссылке: https://diffusion-vision.github.io.

English

Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.

Удивительная эффективность диффузионных моделей для оценки оптического потока и монокулярной глубины

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Аннотация

Support