Profondeur vidéo sans modèles vidéo
Video Depth without Video Models
November 28, 2024
Auteurs: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Résumé
L'estimation de profondeur vidéo élève des clips vidéo monoclips en 3D en inférant une profondeur dense à chaque image. Les récentes avancées en matière d'estimation de profondeur à partir d'une seule image, dues à l'émergence de grands modèles de base et à l'utilisation de données d'entraînement synthétiques, ont ravivé l'intérêt pour la profondeur vidéo. Cependant, appliquer naïvement un estimateur de profondeur à partir d'une seule image à chaque image d'une vidéo ignore la continuité temporelle, ce qui entraîne non seulement des scintillements mais peut également échouer lorsque le mouvement de la caméra provoque des changements soudains dans la plage de profondeur. Une solution évidente et fondée serait de s'appuyer sur des modèles de base vidéo, mais ceux-ci présentent leurs propres limites, notamment un entraînement et une inférence coûteux, une cohérence 3D imparfaite et des routines d'assemblage pour les sorties de longueur fixe (courtes). Nous prenons du recul et démontrons comment transformer un modèle de diffusion latente à partir d'une seule image (LDM) en un estimateur de profondeur vidéo de pointe. Notre modèle, que nous appelons RollingDepth, repose sur deux éléments principaux : (i) un estimateur de profondeur multi-images dérivé d'un LDM à partir d'une seule image et qui cartographie de très courts extraits vidéo (généralement des triplets d'images) en extraits de profondeur. (ii) un algorithme d'enregistrement robuste basé sur l'optimisation qui assemble de manière optimale des extraits de profondeur échantillonnés à différentes fréquences d'images en une vidéo cohérente. RollingDepth est capable de gérer efficacement de longues vidéos avec des centaines d'images et fournit des vidéos de profondeur plus précises que les estimateurs de profondeur vidéo dédiés et les modèles à une seule image performants. Page du projet : rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.Summary
AI-Generated Summary