Глубина видео без моделей видео
Video Depth without Video Models
November 28, 2024
Авторы: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Аннотация
Оценка глубины видео преобразует монокулярные видеоролики в 3D путем вывода плотной глубины на каждом кадре. Недавние достижения в оценке глубины по одному изображению, обусловленные появлением крупных базовых моделей и использованием синтетических обучающих данных, привели к возрождению интереса к глубине видео. Однако наивное применение оценщика глубины по одному изображению к каждому кадру видео игнорирует временную непрерывность, что не только приводит к мерцанию, но также может нарушиться, когда движение камеры вызывает внезапные изменения в диапазоне глубины. Очевидным и обоснованным решением было бы построение на основе базовых моделей видео, но они имеют свои ограничения, включая дорогостоящее обучение и вывод, недостаточную 3D согласованность и процедуры стежки для фиксированных (коротких) выходов. Мы отходим на шаг назад и демонстрируем, как превратить модель латентной диффузии по одному изображению (LDM) в передовой оценщик глубины видео. Наша модель, которую мы называем RollingDepth, имеет два основных компонента: (i) оценщик глубины на основе нескольких кадров, который происходит от модели латентной диффузии по одному изображению и отображает очень короткие видеофрагменты (обычно тройки кадров) в фрагменты глубины. (ii) надежный, оптимизационный алгоритм регистрации, который оптимально собирает фрагменты глубины, отобранные с различными частотами кадров, обратно в согласованное видео. RollingDepth способен эффективно обрабатывать длинные видео с сотнями кадров и предоставляет более точные видео глубины, чем как специализированные оценщики глубины видео, так и высокопроизводительные модели для одного кадра. Страница проекта: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary