ChatPaper.aiChatPaper

Apprentissage de la profondeur vidéo temporellement cohérente à partir de priors de diffusion vidéo

Learning Temporally Consistent Video Depth from Video Diffusion Priors

June 3, 2024
Auteurs: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI

Résumé

Ce travail aborde le défi de l'estimation de la profondeur vidéo, qui nécessite non seulement une précision par image, mais surtout une cohérence inter-images. Plutôt que de développer directement un estimateur de profondeur à partir de zéro, nous reformulons la tâche de prédiction en un problème de génération conditionnelle. Cela nous permet de tirer parti des connaissances préalables intégrées dans les modèles existants de génération vidéo, réduisant ainsi la difficulté d'apprentissage et améliorant la généralisabilité. Concrètement, nous étudions comment adapter le modèle public Stable Video Diffusion (SVD) pour prédire une profondeur fiable à partir de vidéos d'entrée en utilisant un mélange de jeux de données de profondeur d'images et de profondeur vidéo. Nous confirmons empiriquement qu'une stratégie d'entraînement procédurale - optimisant d'abord les couches spatiales de SVD puis optimisant les couches temporelles tout en gardant les couches spatiales gelées - donne les meilleurs résultats en termes de précision spatiale et de cohérence temporelle. Nous examinons également la stratégie de fenêtre glissante pour l'inférence sur des vidéos de longueur arbitraire. Nos observations indiquent un compromis entre efficacité et performance, avec un chevauchement d'une image produisant déjà des résultats favorables. Les résultats expérimentaux approfondis démontrent la supériorité de notre approche, nommée ChronoDepth, par rapport aux alternatives existantes, notamment en termes de cohérence temporelle de la profondeur estimée. De plus, nous mettons en avant les avantages d'une profondeur vidéo plus cohérente dans deux applications pratiques : la génération de vidéos conditionnée par la profondeur et la synthèse de nouvelles vues. Notre page de projet est disponible à l'adresse https://jhaoshao.github.io/ChronoDepth/{this http URL}.
English
This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a conditional generation problem. This allows us to leverage the prior knowledge embedded in existing video generation models, thereby reducing learn- ing difficulty and enhancing generalizability. Concretely, we study how to tame the public Stable Video Diffusion (SVD) to predict reliable depth from input videos using a mixture of image depth and video depth datasets. We empirically confirm that a procedural training strategy - first optimizing the spatial layers of SVD and then optimizing the temporal layers while keeping the spatial layers frozen - yields the best results in terms of both spatial accuracy and temporal consistency. We further examine the sliding window strategy for inference on arbitrarily long videos. Our observations indicate a trade-off between efficiency and performance, with a one-frame overlap already producing favorable results. Extensive experimental results demonstrate the superiority of our approach, termed ChronoDepth, over existing alternatives, particularly in terms of the temporal consistency of the estimated depth. Additionally, we highlight the benefits of more consistent video depth in two practical applications: depth-conditioned video generation and novel view synthesis. Our project page is available at https://jhaoshao.github.io/ChronoDepth/{this http URL}.

Summary

AI-Generated Summary

PDF212December 12, 2024