Profundidad de Video sin Modelos de Video
Video Depth without Video Models
November 28, 2024
Autores: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Resumen
La estimación de profundidad en video eleva clips de video monoculares a 3D mediante la inferencia de profundidad densa en cada fotograma. Los avances recientes en la estimación de profundidad a partir de una sola imagen, impulsados por el surgimiento de grandes modelos base y el uso de datos de entrenamiento sintéticos, han avivado un renovado interés en la profundidad de video. Sin embargo, aplicar ingenuamente un estimador de profundidad de una sola imagen a cada fotograma de un video desatiende la continuidad temporal, lo que no solo provoca parpadeos, sino que también puede fallar cuando el movimiento de la cámara causa cambios bruscos en el rango de profundidad. Una solución obvia y fundamentada sería construir sobre modelos base de video, pero estos tienen sus propias limitaciones, incluyendo un costoso entrenamiento e inferencia, inconsistencia tridimensional imperfecta y rutinas de ensamblaje para las salidas de longitud fija (cortas). Damos un paso atrás y demostramos cómo convertir un modelo de difusión latente de una sola imagen (LDM) en un estimador de profundidad de video de última generación. Nuestro modelo, al que llamamos RollingDepth, tiene dos ingredientes principales: (i) un estimador de profundidad multifotograma derivado de un LDM de una sola imagen que mapea fragmentos de video muy cortos (normalmente tripletes de fotogramas) a fragmentos de profundidad. (ii) un algoritmo de registro robusto basado en optimización que ensambla de manera óptima fragmentos de profundidad muestreados a diferentes frecuencias de fotogramas en un video consistente. RollingDepth es capaz de manejar eficientemente videos largos con cientos de fotogramas y proporciona videos de profundidad más precisos que tanto estimadores de profundidad de video dedicados como modelos de un solo fotograma de alto rendimiento. Página del proyecto: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary