ChatPaper.aiChatPaper

DepthCrafter: オープンワールドビデオのための一貫した長い深度シーケンスの生成

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

September 3, 2024
著者: Wenbo Hu, Xiangjun Gao, Xiaoyu Li, Sijie Zhao, Xiaodong Cun, Yong Zhang, Long Quan, Ying Shan
cs.AI

要旨

静止画像における単眼深度推定の大幅な進歩があるにもかかわらず、オープンワールドにおけるビデオ深度の推定は依然として困難であり、オープンワールドのビデオはコンテンツ、動き、カメラの移動、長さが非常に多様であるためです。私たちは、カメラの位置やオプティカルフローなどの補助情報を必要とせずに、オープンワールドのビデオ向けに複雑な詳細を持つ時間的に一貫した長い深度シーケンスを生成する革新的な手法であるDepthCrafterを提案します。DepthCrafterは、コンパイルされたペアのビデオ深度データセットを用いた、緻密に設計された3段階のトレーニング戦略を通じて、事前にトレーニングされた画像からビデオへの拡散モデルからビデオから深度へのモデルをトレーニングすることで、オープンワールドのビデオに対する一般化能力を実現します。私たちのトレーニングアプローチにより、110フレームまでの可変長の深度シーケンスを一度に生成し、リアルおよび合成データセットから正確な深度の詳細と豊富なコンテンツの多様性を収集することが可能となります。また、セグメントごとの推定とシームレスなステッチングを通じて、非常に長いビデオを処理する推論戦略も提案しています。複数のデータセットでの包括的な評価により、DepthCrafterがゼロショット設定下でオープンワールドビデオ深度推定において最先端の性能を達成していることが明らかとなります。さらに、DepthCrafterは、深度に基づくビジュアルエフェクトや条件付きビデオ生成など、さまざまな下流アプリケーションを容易にします。
English
Despite significant advancements in monocular depth estimation for static images, estimating video depth in the open world remains challenging, since open-world videos are extremely diverse in content, motion, camera movement, and length. We present DepthCrafter, an innovative method for generating temporally consistent long depth sequences with intricate details for open-world videos, without requiring any supplementary information such as camera poses or optical flow. DepthCrafter achieves generalization ability to open-world videos by training a video-to-depth model from a pre-trained image-to-video diffusion model, through our meticulously designed three-stage training strategy with the compiled paired video-depth datasets. Our training approach enables the model to generate depth sequences with variable lengths at one time, up to 110 frames, and harvest both precise depth details and rich content diversity from realistic and synthetic datasets. We also propose an inference strategy that processes extremely long videos through segment-wise estimation and seamless stitching. Comprehensive evaluations on multiple datasets reveal that DepthCrafter achieves state-of-the-art performance in open-world video depth estimation under zero-shot settings. Furthermore, DepthCrafter facilitates various downstream applications, including depth-based visual effects and conditional video generation.

Summary

AI-Generated Summary

PDF373November 16, 2024