ChatPaper.aiChatPaper

Lernen von zeitlich konsistenten Videotiefen aus Videodiffusionsprioritäten

Learning Temporally Consistent Video Depth from Video Diffusion Priors

June 3, 2024
Autoren: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI

Zusammenfassung

Diese Arbeit befasst sich mit der Herausforderung der Schätzung von Tiefen in Videos, die nicht nur eine Genauigkeit pro Frame erwartet, sondern vor allem eine konsistente Überprüfung zwischen den Frames. Anstatt einen Tiefenschätzer von Grund auf zu entwickeln, formulieren wir die Vorhersageaufgabe neu als ein bedingtes Generierungsproblem. Dies ermöglicht es uns, das in bestehenden Video-Generierungsmodellen eingebettete Vorwissen zu nutzen, um die Lernschwierigkeit zu reduzieren und die Verallgemeinerbarkeit zu verbessern. Konkret untersuchen wir, wie man die öffentliche Stable Video Diffusion (SVD) zähmt, um zuverlässige Tiefen aus Eingabevideos mithilfe einer Mischung aus Bildtiefen- und Videotiefendatensätzen vorherzusagen. Wir bestätigen empirisch, dass eine prozedurale Trainingsstrategie - zuerst die räumlichen Schichten der SVD optimieren und dann die zeitlichen Schichten optimieren, während die räumlichen Schichten eingefroren bleiben - die besten Ergebnisse in Bezug auf sowohl räumliche Genauigkeit als auch zeitliche Konsistenz liefert. Wir untersuchen außerdem die Schiebefensterstrategie für die Inferenz bei beliebig langen Videos. Unsere Beobachtungen deuten auf einen Kompromiss zwischen Effizienz und Leistung hin, wobei bereits eine Überlappung von einem Frame günstige Ergebnisse liefert. Umfangreiche experimentelle Ergebnisse belegen die Überlegenheit unseres Ansatzes, genannt ChronoDepth, gegenüber bestehenden Alternativen, insbesondere in Bezug auf die zeitliche Konsistenz der geschätzten Tiefe. Darüber hinaus heben wir die Vorteile einer konsistenteren Videotiefe in zwei praktischen Anwendungen hervor: der tiefenbedingten Videogenerierung und der neuartigen Ansichtssynthese. Unsere Projektseite ist unter https://jhaoshao.github.io/ChronoDepth/{diese http URL} verfügbar.
English
This work addresses the challenge of video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. Instead of directly developing a depth estimator from scratch, we reformulate the prediction task into a conditional generation problem. This allows us to leverage the prior knowledge embedded in existing video generation models, thereby reducing learn- ing difficulty and enhancing generalizability. Concretely, we study how to tame the public Stable Video Diffusion (SVD) to predict reliable depth from input videos using a mixture of image depth and video depth datasets. We empirically confirm that a procedural training strategy - first optimizing the spatial layers of SVD and then optimizing the temporal layers while keeping the spatial layers frozen - yields the best results in terms of both spatial accuracy and temporal consistency. We further examine the sliding window strategy for inference on arbitrarily long videos. Our observations indicate a trade-off between efficiency and performance, with a one-frame overlap already producing favorable results. Extensive experimental results demonstrate the superiority of our approach, termed ChronoDepth, over existing alternatives, particularly in terms of the temporal consistency of the estimated depth. Additionally, we highlight the benefits of more consistent video depth in two practical applications: depth-conditioned video generation and novel view synthesis. Our project page is available at https://jhaoshao.github.io/ChronoDepth/{this http URL}.

Summary

AI-Generated Summary

PDF212December 12, 2024