ChatPaper.aiChatPaper

DVD: 生成的先行知識を用いた決定論的動画深度推定

DVD: Deterministic Video Depth Estimation with Generative Priors

March 12, 2026
著者: Hongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen
cs.AI

要旨

既存の動画深度推定技術は根本的なトレードオフに直面している:生成的モデルは確率的な幾何学的幻影やスケールドリフトに悩まされ、識別的モデルは意味的曖昧性を解決するために大規模なラベル付きデータセットを要求する。この行き詰まりを打破するため、我々は事前学習済み動画拡散モデルを単一パスで動作する深度回帰器に確定的に適応させる初のフレームワーク「DVD」を提案する。具体的には、DVDは以下の3つの核心的設計を特徴とする:(i)拡散タイムステップを構造的アンカーとして再利用し、大域的な安定性と高周波詳細のバランスを取る、(ii)潜在多様体補正(LMR)により回帰による過剰平滑化を緩和し、微分制約を適用して鋭い境界と一貫した動きを回復する、(iii)大域的アフィン一貫性という、ウィンドウ間の発散を制限する内在的特性により、複雑な時間アライメントを必要とせずに長尺動画推論を実現する。大規模な実験により、DVDがベンチマークにおいてゼロショット性能で最先端を達成することが実証された。さらにDVDは、主要ベースライン比163倍少ないタスク特化データで、動画基盤モデルに内在する深い幾何学的事前知識の解放に成功している。特筆すべきは、我々がパイプラインを完全公開し、最先端の動画深度推定のための訓練スイート全体をオープンソースコミュニティに提供することである。
English
Existing video depth estimation faces a fundamental trade-off: generative models suffer from stochastic geometric hallucinations and scale drift, while discriminative models demand massive labeled datasets to resolve semantic ambiguities. To break this impasse, we present DVD, the first framework to deterministically adapt pre-trained video diffusion models into single-pass depth regressors. Specifically, DVD features three core designs: (i) repurposing the diffusion timestep as a structural anchor to balance global stability with high-frequency details; (ii) latent manifold rectification (LMR) to mitigate regression-induced over-smoothing, enforcing differential constraints to restore sharp boundaries and coherent motion; and (iii) global affine coherence, an inherent property bounding inter-window divergence, which enables seamless long-video inference without requiring complex temporal alignment. Extensive experiments demonstrate that DVD achieves state-of-the-art zero-shot performance across benchmarks. Furthermore, DVD successfully unlocks the profound geometric priors implicit in video foundation models using 163x less task-specific data than leading baselines. Notably, we fully release our pipeline, providing the whole training suite for SOTA video depth estimation to benefit the open-source community.
PDF182March 15, 2026