Profundidade de Vídeo sem Modelos de Vídeo
Video Depth without Video Models
November 28, 2024
Autores: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Resumo
A estimativa de profundidade de vídeo eleva clipes de vídeo monocular para 3D inferindo profundidade densa em cada quadro. Avanços recentes na estimativa de profundidade de imagem única, impulsionados pelo surgimento de grandes modelos de base e pelo uso de dados de treinamento sintéticos, têm alimentado um interesse renovado na profundidade de vídeo. No entanto, aplicar ingenuamente um estimador de profundidade de imagem única a cada quadro de um vídeo desconsidera a continuidade temporal, o que não apenas resulta em cintilação, mas também pode falhar quando o movimento da câmera causa mudanças repentinas no intervalo de profundidade. Uma solução óbvia e fundamentada seria construir em cima de modelos de base de vídeo, mas estes têm suas próprias limitações; incluindo treinamento e inferência caros, consistência 3D imperfeita e rotinas de costura para as saídas de comprimento fixo (curto). Damos um passo atrás e demonstramos como transformar um modelo de difusão latente de imagem única (LDM) em um estimador de profundidade de vídeo de ponta. Nosso modelo, que chamamos de RollingDepth, tem dois ingredientes principais: (i) um estimador de profundidade multi-quadro derivado de um LDM de imagem única e que mapeia trechos de vídeo muito curtos (tipicamente triplos de quadros) para trechos de profundidade. (ii) um algoritmo robusto de registro baseado em otimização que monta de forma ideal trechos de profundidade amostrados em diferentes taxas de quadros de volta a um vídeo consistente. O RollingDepth é capaz de lidar eficientemente com vídeos longos com centenas de quadros e fornece vídeos de profundidade mais precisos do que tanto estimadores de profundidade de vídeo dedicados quanto modelos de quadro único de alto desempenho. Página do projeto: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary