Profundidad de Video sin Modelos de Video

Resumen

La estimación de profundidad en video eleva clips de video monoculares a 3D mediante la inferencia de profundidad densa en cada fotograma. Los avances recientes en la estimación de profundidad a partir de una sola imagen, impulsados por el surgimiento de grandes modelos base y el uso de datos de entrenamiento sintéticos, han avivado un renovado interés en la profundidad de video. Sin embargo, aplicar ingenuamente un estimador de profundidad de una sola imagen a cada fotograma de un video desatiende la continuidad temporal, lo que no solo provoca parpadeos, sino que también puede fallar cuando el movimiento de la cámara causa cambios bruscos en el rango de profundidad. Una solución obvia y fundamentada sería construir sobre modelos base de video, pero estos tienen sus propias limitaciones, incluyendo un costoso entrenamiento e inferencia, inconsistencia tridimensional imperfecta y rutinas de ensamblaje para las salidas de longitud fija (cortas). Damos un paso atrás y demostramos cómo convertir un modelo de difusión latente de una sola imagen (LDM) en un estimador de profundidad de video de última generación. Nuestro modelo, al que llamamos RollingDepth, tiene dos ingredientes principales: (i) un estimador de profundidad multifotograma derivado de un LDM de una sola imagen que mapea fragmentos de video muy cortos (normalmente tripletes de fotogramas) a fragmentos de profundidad. (ii) un algoritmo de registro robusto basado en optimización que ensambla de manera óptima fragmentos de profundidad muestreados a diferentes frecuencias de fotogramas en un video consistente. RollingDepth es capaz de manejar eficientemente videos largos con cientos de fotogramas y proporciona videos de profundidad más precisos que tanto estimadores de profundidad de video dedicados como modelos de un solo fotograma de alto rendimiento. Página del proyecto: rollingdepth.github.io.

English

Video depth estimation lifts monocular video clips to 3D by inferring dense depth at every frame. Recent advances in single-image depth estimation, brought about by the rise of large foundation models and the use of synthetic training data, have fueled a renewed interest in video depth. However, naively applying a single-image depth estimator to every frame of a video disregards temporal continuity, which not only leads to flickering but may also break when camera motion causes sudden changes in depth range. An obvious and principled solution would be to build on top of video foundation models, but these come with their own limitations; including expensive training and inference, imperfect 3D consistency, and stitching routines for the fixed-length (short) outputs. We take a step back and demonstrate how to turn a single-image latent diffusion model (LDM) into a state-of-the-art video depth estimator. Our model, which we call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator that is derived from a single-image LDM and maps very short video snippets (typically frame triplets) to depth snippets. (ii) a robust, optimization-based registration algorithm that optimally assembles depth snippets sampled at various different frame rates back into a consistent video. RollingDepth is able to efficiently handle long videos with hundreds of frames and delivers more accurate depth videos than both dedicated video depth estimators and high-performing single-frame models. Project page: rollingdepth.github.io.

Profundidad de Video sin Modelos de Video

Video Depth without Video Models

Resumen

Support