Video-Tiefe ohne Videomodelle
Video Depth without Video Models
November 28, 2024
Autoren: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Zusammenfassung
Die Tiefenschätzung von Videos hebt monokulare Videoclips auf 3D, indem sie dichte Tiefenwerte in jedem Frame ableitet. Die jüngsten Fortschritte in der Tiefenschätzung aus Einzelbildern, die durch den Aufstieg großer Grundlagenmodelle und die Verwendung synthetischer Trainingsdaten vorangetrieben wurden, haben das Interesse an der Tiefenschätzung von Videos wiederbelebt. Allerdings vernachlässigt die naive Anwendung eines Einzelbild-Tiefenschätzers auf jeden Frame eines Videos die zeitliche Kontinuität, was nicht nur zu Flackern führt, sondern auch versagen kann, wenn Kamerabewegungen plötzliche Änderungen im Tiefenbereich verursachen. Eine offensichtliche und fundierte Lösung wäre, aufbauend auf Videogundelagenmodellen zu arbeiten, aber diese haben ihre eigenen Einschränkungen; darunter teures Training und Inferenz, unvollkommene 3D-Konsistenz und Stitching-Routinen für die festen (kurzen) Ausgaben. Wir gehen einen Schritt zurück und zeigen, wie man ein Einzelbild-Latenzdiffusionsmodell (LDM) in einen hochmodernen Video-Tiefenschätzer umwandeln kann. Unser Modell, das wir RollingDepth nennen, hat zwei Hauptbestandteile: (i) ein Multi-Frame-Tiefenschätzer, der von einem Einzelbild-LDM abgeleitet ist und sehr kurze Videoclips (typischerweise Frame-Triplets) in Tiefenclips umwandelt. (ii) ein robuster, auf Optimierung basierender Registrierungsalgorithmus, der Tiefenclips, die mit verschiedenen Bildraten abgetastet wurden, optimal zu einem konsistenten Video zusammensetzt. RollingDepth ist in der Lage, lange Videos mit Hunderten von Frames effizient zu verarbeiten und liefert genauere Tiefenvideos als dedizierte Video-Tiefenschätzer und leistungsstarke Einzelbildmodelle. Projektseite: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.