Обучение видео глубины с сохранением временной согласованности на основе априорных знаний о диффузии видео.
Learning Temporally Consistent Video Depth from Video Diffusion Priors
June 3, 2024
Авторы: Jiahao Shao, Yuanbo Yang, Hongyu Zhou, Youmin Zhang, Yujun Shen, Matteo Poggi, Yiyi Liao
cs.AI
Аннотация
Данная работа решает проблему оценки глубины видео, которая требует не только точности кадра, но, что более важно, согласованности между кадрами. Вместо прямого создания оценщика глубины с нуля, мы переформулируем задачу предсказания в задачу условной генерации. Это позволяет нам использовать предварительные знания, заложенные в существующих моделях генерации видео, тем самым уменьшая сложность обучения и повышая обобщаемость. Конкретно, мы изучаем, как приручить публичный стабильный видеодиффузор (SVD) для предсказания надежной глубины по входным видео с использованием смеси наборов данных глубины изображения и видео. Мы эмпирически подтверждаем, что процедурная стратегия обучения - сначала оптимизация пространственных слоев SVD, а затем оптимизация временных слоев при замороженных пространственных слоях - дает лучшие результаты как по точности пространственной, так и по временной согласованности. Мы также исследуем стратегию скользящего окна для вывода на произвольно длинных видео. Наши наблюдения указывают на компромисс между эффективностью и производительностью, при этом однокадровое перекрытие уже дает благоприятные результаты. Обширные экспериментальные результаты демонстрируют превосходство нашего подхода, названного ChronoDepth, над существующими альтернативами, особенно в плане временной согласованности оцененной глубины. Кроме того, мы выделяем преимущества более согласованной глубины видео в двух практических приложениях: генерации видео с условием глубины и синтезе нового вида. Наша страница проекта доступна по адресу https://jhaoshao.github.io/ChronoDepth/{этот http URL}.
English
This work addresses the challenge of video depth estimation, which expects
not only per-frame accuracy but, more importantly, cross-frame consistency.
Instead of directly developing a depth estimator from scratch, we reformulate
the prediction task into a conditional generation problem. This allows us to
leverage the prior knowledge embedded in existing video generation models,
thereby reducing learn- ing difficulty and enhancing generalizability.
Concretely, we study how to tame the public Stable Video Diffusion (SVD) to
predict reliable depth from input videos using a mixture of image depth and
video depth datasets. We empirically confirm that a procedural training
strategy - first optimizing the spatial layers of SVD and then optimizing the
temporal layers while keeping the spatial layers frozen - yields the best
results in terms of both spatial accuracy and temporal consistency. We further
examine the sliding window strategy for inference on arbitrarily long videos.
Our observations indicate a trade-off between efficiency and performance, with
a one-frame overlap already producing favorable results. Extensive experimental
results demonstrate the superiority of our approach, termed ChronoDepth, over
existing alternatives, particularly in terms of the temporal consistency of the
estimated depth. Additionally, we highlight the benefits of more consistent
video depth in two practical applications: depth-conditioned video generation
and novel view synthesis. Our project page is available at
https://jhaoshao.github.io/ChronoDepth/{this http URL}.Summary
AI-Generated Summary