ChatPaper.aiChatPaper

ビデオの深度全般:超長時間のビデオに対する一貫した深度推定

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

January 21, 2025
著者: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI

要旨

Depth Anythingは、単眼の深度推定において顕著な成功を収めており、強力な汎化能力を持っています。しかしながら、ビデオにおいて時間的な不整合が発生し、その実用的な応用を妨げています。ビデオ生成モデルを活用したり、光学フローやカメラの位置情報から事前情報を導入することで、この問題を緩和するための様々な手法が提案されています。しかしながら、これらの手法は短いビデオ(< 10秒)にのみ適用可能であり、品質と計算効率とのトレードオフが必要です。私たちは、効率性を犠牲にすることなく、超長いビデオ(数分以上)において高品質で一貫した深度推定を行うためのVideo Depth Anythingを提案します。私たちは、Depth Anything V2をベースにし、そのヘッドを効率的な空間-時間ヘッドに置き換えます。時間的な深度勾配を制約する直感的で効果的な時間的一貫性損失を設計し、追加の幾何学的事前情報が不要となります。モデルは、Depth Anything V2と同様に、ビデオ深度と未ラベルの画像の共同データセットで訓練されます。さらに、長いビデオ推論のための新しいキーフレームベースの戦略が開発されています。実験結果は、私たちのモデルが品質、一貫性、汎化能力を損なうことなく、任意の長さのビデオに適用可能であることを示しています。複数のビデオベンチマークでの包括的な評価は、当社の手法がゼロショットビデオ深度推定において新たな最先端を確立していることを示しています。さまざまなシナリオをサポートするために、異なるスケールのモデルを提供し、最小のモデルでも30 FPSでリアルタイムの性能を発揮できます。
English
Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Summary

AI-Generated Summary

PDF222January 22, 2025