Diepte van video zonder videomodellen
Video Depth without Video Models
November 28, 2024
Auteurs: Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler
cs.AI
Samenvatting
Videodiepteschatting tilt monovideoclips naar 3D door dichte diepte af te leiden bij elk frame. Recente vooruitgang in diepteschatting van enkele afbeeldingen, mogelijk gemaakt door de opkomst van grote basis modellen en het gebruik van synthetische trainingsgegevens, hebben de belangstelling voor videodiepte nieuw leven ingeblazen. Echter, het naïef toepassen van een diepteschatting van enkele afbeeldingen op elk frame van een video negeert de temporele continuïteit, wat niet alleen tot flikkering leidt maar ook kan falen wanneer camerabeweging plotselinge veranderingen in dieptebereik veroorzaakt. Een voor de hand liggende en principiële oplossing zou zijn om voort te bouwen op videobasis modellen, maar deze hebben hun eigen beperkingen; waaronder dure training en inferentie, onvolmaakte 3D consistentie, en stikselschema's voor de vaste (korte) uitvoer. We nemen een stap terug en laten zien hoe we een latent diffusiemodel (LDM) van enkele afbeeldingen kunnen omzetten in een geavanceerde videodiepteschatting. Ons model, dat we RollingDepth noemen, heeft twee hoofdingrediënten: (i) een diepteschatting over meerdere frames die is afgeleid van een enkele afbeelding LDM en zeer korte videofragmenten (meestal frame triplets) naar dieptefragmenten in kaart brengt. (ii) een robuust, optimalisatiegebaseerd registratiealgoritme dat dieptefragmenten die zijn bemonsterd op verschillende frame-snelheden optimaal samenvoegt tot een consistente video. RollingDepth kan efficiënt omgaan met lange video's met honderden frames en levert nauwkeurigere dieptevideo's op dan zowel toegewijde videodiepteschattingen als hoogpresterende enkelvoudige modellen. Projectpagina: rollingdepth.github.io.
English
Video depth estimation lifts monocular video clips to 3D by inferring dense
depth at every frame. Recent advances in single-image depth estimation, brought
about by the rise of large foundation models and the use of synthetic training
data, have fueled a renewed interest in video depth. However, naively applying
a single-image depth estimator to every frame of a video disregards temporal
continuity, which not only leads to flickering but may also break when camera
motion causes sudden changes in depth range. An obvious and principled solution
would be to build on top of video foundation models, but these come with their
own limitations; including expensive training and inference, imperfect 3D
consistency, and stitching routines for the fixed-length (short) outputs. We
take a step back and demonstrate how to turn a single-image latent diffusion
model (LDM) into a state-of-the-art video depth estimator. Our model, which we
call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator
that is derived from a single-image LDM and maps very short video snippets
(typically frame triplets) to depth snippets. (ii) a robust, optimization-based
registration algorithm that optimally assembles depth snippets sampled at
various different frame rates back into a consistent video. RollingDepth is
able to efficiently handle long videos with hundreds of frames and delivers
more accurate depth videos than both dedicated video depth estimators and
high-performing single-frame models. Project page: rollingdepth.github.io.