Vidéo Profondeur Illimitée : Estimation Cohérente de la Profondeur pour les Vidéos Très Longues
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
January 21, 2025
Auteurs: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Résumé
Depth Anything a connu un succès remarquable dans l'estimation de profondeur monoculaire avec une forte capacité de généralisation. Cependant, il souffre d'incohérences temporelles dans les vidéos, ce qui entrave ses applications pratiques. Diverses méthodes ont été proposées pour atténuer ce problème en exploitant des modèles de génération vidéo ou en introduisant des prédictions issues du flux optique et des poses de caméra. Néanmoins, ces méthodes ne s'appliquent qu'aux courtes vidéos (< 10 secondes) et nécessitent un compromis entre qualité et efficacité computationnelle. Nous proposons Video Depth Anything pour une estimation de profondeur de haute qualité et cohérente dans des vidéos super longues (plusieurs minutes) sans sacrifier l'efficacité. Nous basons notre modèle sur Depth Anything V2 et remplaçons sa tête par une tête spatiale-temporelle efficace. Nous concevons une perte de cohérence temporelle simple mais efficace en contraignant le gradient de profondeur temporelle, éliminant ainsi le besoin de prédictions géométriques supplémentaires. Le modèle est entraîné sur un ensemble de données conjoint de profondeur vidéo et d'images non étiquetées, similaire à Depth Anything V2. De plus, une nouvelle stratégie basée sur les images clés est développée pour l'inférence de vidéos longues. Les expériences montrent que notre modèle peut être appliqué à des vidéos de longueur arbitraire sans compromettre la qualité, la cohérence ou la capacité de généralisation. Des évaluations approfondies sur plusieurs référentiels vidéo démontrent que notre approche établit un nouvel état de l'art en matière d'estimation de profondeur vidéo sans apprentissage préalable. Nous proposons des modèles de différentes échelles pour prendre en charge divers scénarios, notre plus petit modèle étant capable de performances en temps réel à 30 FPS.
English
Depth Anything has achieved remarkable success in monocular depth estimation
with strong generalization ability. However, it suffers from temporal
inconsistency in videos, hindering its practical applications. Various methods
have been proposed to alleviate this issue by leveraging video generation
models or introducing priors from optical flow and camera poses. Nonetheless,
these methods are only applicable to short videos (< 10 seconds) and require a
trade-off between quality and computational efficiency. We propose Video Depth
Anything for high-quality, consistent depth estimation in super-long videos
(over several minutes) without sacrificing efficiency. We base our model on
Depth Anything V2 and replace its head with an efficient spatial-temporal head.
We design a straightforward yet effective temporal consistency loss by
constraining the temporal depth gradient, eliminating the need for additional
geometric priors. The model is trained on a joint dataset of video depth and
unlabeled images, similar to Depth Anything V2. Moreover, a novel
key-frame-based strategy is developed for long video inference. Experiments
show that our model can be applied to arbitrarily long videos without
compromising quality, consistency, or generalization ability. Comprehensive
evaluations on multiple video benchmarks demonstrate that our approach sets a
new state-of-the-art in zero-shot video depth estimation. We offer models of
different scales to support a range of scenarios, with our smallest model
capable of real-time performance at 30 FPS.Summary
AI-Generated Summary