Aprendizado de Profundidade Temporalmente Consistente em Vídeos a partir de Priors de Difusão de Vídeo
Learning Temporally Consistent Video Depth from Video Diffusion Priors
June 3, 2024
Autores: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI
Resumo
Este trabalho aborda o desafio da estimativa de profundidade em vídeos, que exige não apenas precisão por quadro, mas, mais importante, consistência entre quadros. Em vez de desenvolver diretamente um estimador de profundidade do zero, reformulamos a tarefa de predição como um problema de geração condicional. Isso nos permite aproveitar o conhecimento prévio incorporado em modelos existentes de geração de vídeos, reduzindo assim a dificuldade de aprendizado e aumentando a generalizabilidade. Concretamente, estudamos como adaptar o modelo público Stable Video Diffusion (SVD) para prever profundidade confiável a partir de vídeos de entrada, utilizando uma mistura de conjuntos de dados de profundidade de imagens e vídeos. Confirmamos empiricamente que uma estratégia de treinamento procedural - primeiro otimizando as camadas espaciais do SVD e depois otimizando as camadas temporais enquanto mantemos as camadas espaciais congeladas - produz os melhores resultados em termos de precisão espacial e consistência temporal. Além disso, examinamos a estratégia de janela deslizante para inferência em vídeos de comprimento arbitrário. Nossas observações indicam uma troca entre eficiência e desempenho, com uma sobreposição de um quadro já produzindo resultados favoráveis. Resultados experimentais extensivos demonstram a superioridade de nossa abordagem, denominada ChronoDepth, sobre as alternativas existentes, particularmente em termos da consistência temporal da profundidade estimada. Adicionalmente, destacamos os benefícios de uma profundidade de vídeo mais consistente em duas aplicações práticas: geração de vídeos condicionada por profundidade e síntese de novas visões. Nossa página do projeto está disponível em https://jhaoshao.github.io/ChronoDepth/{este link}.
English
This work addresses the challenge of video depth estimation, which expects
not only per-frame accuracy but, more importantly, cross-frame consistency.
Instead of directly developing a depth estimator from scratch, we reformulate
the prediction task into a conditional generation problem. This allows us to
leverage the prior knowledge embedded in existing video generation models,
thereby reducing learn- ing difficulty and enhancing generalizability.
Concretely, we study how to tame the public Stable Video Diffusion (SVD) to
predict reliable depth from input videos using a mixture of image depth and
video depth datasets. We empirically confirm that a procedural training
strategy - first optimizing the spatial layers of SVD and then optimizing the
temporal layers while keeping the spatial layers frozen - yields the best
results in terms of both spatial accuracy and temporal consistency. We further
examine the sliding window strategy for inference on arbitrarily long videos.
Our observations indicate a trade-off between efficiency and performance, with
a one-frame overlap already producing favorable results. Extensive experimental
results demonstrate the superiority of our approach, termed ChronoDepth, over
existing alternatives, particularly in terms of the temporal consistency of the
estimated depth. Additionally, we highlight the benefits of more consistent
video depth in two practical applications: depth-conditioned video generation
and novel view synthesis. Our project page is available at
https://jhaoshao.github.io/ChronoDepth/{this http URL}.