ChatPaper.aiChatPaper

光学フローと単眼深度推定における拡散モデルの驚くべき有効性

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

June 2, 2023
著者: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
cs.AI

要旨

ノイズ除去拡散確率モデルは、その印象的な忠実度と多様性により、画像生成の分野を変革しました。本論文では、これらのモデルが、驚くべきことに、タスク固有のアーキテクチャや損失関数を必要とせずに、オプティカルフローや単眼深度の推定においても優れた性能を発揮することを示します。従来の回帰ベースの手法による点推定と比較して、拡散モデルはモンテカルロ推論を可能にし、例えばフローや深度における不確実性や曖昧性を捉えることができます。自己教師あり事前学習、合成データと実データを組み合わせた教師あり学習、ノイズの多い不完全な学習データを処理するための技術的革新(インフィリングとステップアンロールドノイズ除去拡散学習)、そして粗から細への単純なリファインメントを組み合わせることで、深度とオプティカルフロー推定のための最先端の拡散モデルを学習することができます。広範な実験では、ベンチマークに対する定量的な性能、アブレーション、モデルの不確実性と多様性を捉える能力、欠損値の補完に焦点を当てています。我々のモデル、DDVM(Denoising Diffusion Vision Model)は、屋内NYUベンチマークで0.074の相対深度誤差、KITTIオプティカルフローベンチマークで3.26%のFl-all外れ率を達成し、これまでに発表された最良の手法よりも約25%優れています。概要については、https://diffusion-vision.github.ioをご覧ください。
English
Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.
PDF30December 15, 2024