ビデオモデルなしでのビデオの深度
Video Depth without Video Models
November 28, 2024
著者: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
要旨
ビデオの奥行き推定は、各フレームで密な奥行きを推論することによって、単眼ビデオクリップを3Dに昇華させます。大規模な基盤モデルの台頭と合成トレーニングデータの使用によってもたらされた最近の単一画像奥行き推定の進歩は、ビデオの奥行きに対する再び興味が高まっています。ただし、ビデオの各フレームに単一画像奥行き推定器を単純に適用することは、時間的な連続性を無視するため、フリッカリングを引き起こすだけでなく、カメラの動きによって深度範囲が急激に変化するときにも破綻する可能性があります。明らかで原則に基づいた解決策は、ビデオ基盤モデルをベースに構築することですが、これらには高コストなトレーニングと推論、不完全な3Dの一貫性、固定長(短い)の出力に対するステッチング手順など、独自の制約があります。私たちは一歩後退して、単一画像潜在拡散モデル(LDM)を最先端のビデオ奥行き推定器に変換する方法を示しました。私たちがRollingDepthと呼ぶこのモデルには、次の2つの主要な要素があります:(i)単一画像LDMから派生した複数フレーム奥行き推定器であり、非常に短いビデオスニペット(通常はフレームの三つ組)を奥行きスニペットにマッピングします。 (ii)異なるフレームレートでサンプリングされた奥行きスニペットを最適に組み立てるための頑健な最適化ベースの登録アルゴリズム。RollingDepthは、数百フレームの長いビデオを効率的に処理し、専用のビデオ奥行き推定器および高性能な単一フレームモデルよりもより正確な奥行きビデオを提供します。プロジェクトページ:rollingdepth.github.io。
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary