ChatPaper.aiChatPaper

Apprendimento della Profondità Video Temporalmente Coerente da Prior di Diffusione Video

Learning Temporally Consistent Video Depth from Video Diffusion Priors

June 3, 2024
Autori: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI

Abstract

Questo lavoro affronta la sfida della stima della profondità nei video, che richiede non solo accuratezza per singolo fotogramma, ma, soprattutto, coerenza tra i fotogrammi. Invece di sviluppare direttamente un estimatore di profondità da zero, riformuliamo il compito di previsione come un problema di generazione condizionata. Questo ci permette di sfruttare la conoscenza pregressa incorporata nei modelli esistenti di generazione video, riducendo così la difficoltà di apprendimento e migliorando la generalizzabilità. Nello specifico, studiamo come addestrare il modello pubblico Stable Video Diffusion (SVD) per prevedere la profondità in modo affidabile da video di input, utilizzando una combinazione di dataset di profondità di immagini e video. Confermiamo empiricamente che una strategia di addestramento procedurale - ottimizzando prima gli strati spaziali di SVD e poi ottimizzando gli strati temporali mantenendo congelati gli strati spaziali - produce i migliori risultati in termini di accuratezza spaziale e coerenza temporale. Esaminiamo inoltre la strategia della finestra scorrevole per l'inferenza su video di lunghezza arbitraria. Le nostre osservazioni indicano un compromesso tra efficienza e prestazioni, con una sovrapposizione di un fotogramma che già produce risultati favorevoli. I risultati sperimentali estesi dimostrano la superiorità del nostro approccio, denominato ChronoDepth, rispetto alle alternative esistenti, in particolare in termini di coerenza temporale della profondità stimata. Inoltre, evidenziamo i vantaggi di una profondità video più coerente in due applicazioni pratiche: la generazione di video condizionata dalla profondità e la sintesi di nuove viste. La pagina del nostro progetto è disponibile all'indirizzo https://jhaoshao.github.io/ChronoDepth/{this http URL}.
English
This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a conditional generation problem. This allows us to leverage the prior knowledge embedded in existing video generation models, thereby reducing learn- ing difficulty and enhancing generalizability. Concretely, we study how to tame the public Stable Video Diffusion (SVD) to predict reliable depth from input videos using a mixture of image depth and video depth datasets. We empirically confirm that a procedural training strategy - first optimizing the spatial layers of SVD and then optimizing the temporal layers while keeping the spatial layers frozen - yields the best results in terms of both spatial accuracy and temporal consistency. We further examine the sliding window strategy for inference on arbitrarily long videos. Our observations indicate a trade-off between efficiency and performance, with a one-frame overlap already producing favorable results. Extensive experimental results demonstrate the superiority of our approach, termed ChronoDepth, over existing alternatives, particularly in terms of the temporal consistency of the estimated depth. Additionally, we highlight the benefits of more consistent video depth in two practical applications: depth-conditioned video generation and novel view synthesis. Our project page is available at https://jhaoshao.github.io/ChronoDepth/{this http URL}.
PDF232February 7, 2026