ChatPaper.aiChatPaper

Aprendizaje de Profundidad Temporalmente Consistente en Videos a partir de Priores de Difusión de Video

Learning Temporally Consistent Video Depth from Video Diffusion Priors

June 3, 2024
Autores: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI

Resumen

Este trabajo aborda el desafío de la estimación de profundidad en videos, la cual no solo requiere precisión por fotograma, sino, más importante aún, consistencia entre fotogramas. En lugar de desarrollar directamente un estimador de profundidad desde cero, reformulamos la tarea de predicción como un problema de generación condicional. Esto nos permite aprovechar el conocimiento previo incorporado en los modelos existentes de generación de videos, reduciendo así la dificultad de aprendizaje y mejorando la generalización. Concretamente, estudiamos cómo adaptar el modelo público Stable Video Diffusion (SVD) para predecir profundidad confiable a partir de videos de entrada utilizando una mezcla de conjuntos de datos de profundidad de imágenes y videos. Confirmamos empíricamente que una estrategia de entrenamiento procedural —optimizando primero las capas espaciales de SVD y luego optimizando las capas temporales mientras se mantienen congeladas las capas espaciales— produce los mejores resultados en términos de precisión espacial y consistencia temporal. Además, examinamos la estrategia de ventana deslizante para la inferencia en videos de longitud arbitraria. Nuestras observaciones indican un equilibrio entre eficiencia y rendimiento, donde un solapamiento de un fotograma ya produce resultados favorables. Los resultados experimentales extensivos demuestran la superioridad de nuestro enfoque, denominado ChronoDepth, sobre las alternativas existentes, particularmente en términos de la consistencia temporal de la profundidad estimada. Adicionalmente, destacamos los beneficios de una profundidad de video más consistente en dos aplicaciones prácticas: generación de videos condicionados por profundidad y síntesis de nuevas vistas. Nuestra página del proyecto está disponible en https://jhaoshao.github.io/ChronoDepth/{este enlace}.
English
This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a conditional generation problem. This allows us to leverage the prior knowledge embedded in existing video generation models, thereby reducing learn- ing difficulty and enhancing generalizability. Concretely, we study how to tame the public Stable Video Diffusion (SVD) to predict reliable depth from input videos using a mixture of image depth and video depth datasets. We empirically confirm that a procedural training strategy - first optimizing the spatial layers of SVD and then optimizing the temporal layers while keeping the spatial layers frozen - yields the best results in terms of both spatial accuracy and temporal consistency. We further examine the sliding window strategy for inference on arbitrarily long videos. Our observations indicate a trade-off between efficiency and performance, with a one-frame overlap already producing favorable results. Extensive experimental results demonstrate the superiority of our approach, termed ChronoDepth, over existing alternatives, particularly in terms of the temporal consistency of the estimated depth. Additionally, we highlight the benefits of more consistent video depth in two practical applications: depth-conditioned video generation and novel view synthesis. Our project page is available at https://jhaoshao.github.io/ChronoDepth/{this http URL}.

Summary

AI-Generated Summary

PDF212December 12, 2024