Het leren van temporeel consistente videodiepte vanuit videodiffusieprioriteiten
Learning Temporally Consistent Video Depth from Video Diffusion Priors
June 3, 2024
Auteurs: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI
Samenvatting
Dit werk richt zich op de uitdaging van diepteschatting in video's, waarbij niet alleen nauwkeurigheid per frame wordt verwacht, maar, nog belangrijker, consistentie tussen frames. In plaats van direct een diepteschatter vanaf nul te ontwikkelen, herformuleren we de voorspellingstaak als een conditioneel generatieprobleem. Hierdoor kunnen we gebruikmaken van de voorkennis die is ingebed in bestaande videogeneratiemodellen, waardoor de leercomplexiteit wordt verminderd en de generaliseerbaarheid wordt verbeterd. Concreet onderzoeken we hoe het publieke Stable Video Diffusion (SVD) kan worden getemd om betrouwbare diepte te voorspellen uit invoervideo's, waarbij we een mix van beelddiepte- en videodieptedatasets gebruiken. We bevestigen empirisch dat een procedurele trainingsstrategie - eerst het optimaliseren van de ruimtelijke lagen van SVD en vervolgens het optimaliseren van de temporele lagen terwijl de ruimtelijke lagen bevroren blijven - de beste resultaten oplevert in termen van zowel ruimtelijke nauwkeurigheid als temporele consistentie. We onderzoeken verder de sliding window-strategie voor inferentie op willekeurig lange video's. Onze observaties wijzen op een afweging tussen efficiëntie en prestaties, waarbij een overlap van één frame al gunstige resultaten oplevert. Uitgebreide experimentele resultaten tonen de superioriteit van onze aanpak, genaamd ChronoDepth, aan ten opzichte van bestaande alternatieven, met name wat betreft de temporele consistentie van de geschatte diepte. Daarnaast benadrukken we de voordelen van meer consistente videodiepte in twee praktische toepassingen: diepte-geconditioneerde videogeneratie en synthese van nieuwe gezichtspunten. Onze projectpagina is beschikbaar op https://jhaoshao.github.io/ChronoDepth/{this http URL}.
English
This work addresses the challenge of video depth estimation, which expects
not only per-frame accuracy but, more importantly, cross-frame consistency.
Instead of directly developing a depth estimator from scratch, we reformulate
the prediction task into a conditional generation problem. This allows us to
leverage the prior knowledge embedded in existing video generation models,
thereby reducing learn- ing difficulty and enhancing generalizability.
Concretely, we study how to tame the public Stable Video Diffusion (SVD) to
predict reliable depth from input videos using a mixture of image depth and
video depth datasets. We empirically confirm that a procedural training
strategy - first optimizing the spatial layers of SVD and then optimizing the
temporal layers while keeping the spatial layers frozen - yields the best
results in terms of both spatial accuracy and temporal consistency. We further
examine the sliding window strategy for inference on arbitrarily long videos.
Our observations indicate a trade-off between efficiency and performance, with
a one-frame overlap already producing favorable results. Extensive experimental
results demonstrate the superiority of our approach, termed ChronoDepth, over
existing alternatives, particularly in terms of the temporal consistency of the
estimated depth. Additionally, we highlight the benefits of more consistent
video depth in two practical applications: depth-conditioned video generation
and novel view synthesis. Our project page is available at
https://jhaoshao.github.io/ChronoDepth/{this http URL}.