Diepte van video zonder videomodellen

Samenvatting

Videodiepteschatting tilt monovideoclips naar 3D door dichte diepte af te leiden bij elk frame. Recente vooruitgang in diepteschatting van enkele afbeeldingen, mogelijk gemaakt door de opkomst van grote basis modellen en het gebruik van synthetische trainingsgegevens, hebben de belangstelling voor videodiepte nieuw leven ingeblazen. Echter, het naïef toepassen van een diepteschatting van enkele afbeeldingen op elk frame van een video negeert de temporele continuïteit, wat niet alleen tot flikkering leidt maar ook kan falen wanneer camerabeweging plotselinge veranderingen in dieptebereik veroorzaakt. Een voor de hand liggende en principiële oplossing zou zijn om voort te bouwen op videobasis modellen, maar deze hebben hun eigen beperkingen; waaronder dure training en inferentie, onvolmaakte 3D consistentie, en stikselschema's voor de vaste (korte) uitvoer. We nemen een stap terug en laten zien hoe we een latent diffusiemodel (LDM) van enkele afbeeldingen kunnen omzetten in een geavanceerde videodiepteschatting. Ons model, dat we RollingDepth noemen, heeft twee hoofdingrediënten: (i) een diepteschatting over meerdere frames die is afgeleid van een enkele afbeelding LDM en zeer korte videofragmenten (meestal frame triplets) naar dieptefragmenten in kaart brengt. (ii) een robuust, optimalisatiegebaseerd registratiealgoritme dat dieptefragmenten die zijn bemonsterd op verschillende frame-snelheden optimaal samenvoegt tot een consistente video. RollingDepth kan efficiënt omgaan met lange video's met honderden frames en levert nauwkeurigere dieptevideo's op dan zowel toegewijde videodiepteschattingen als hoogpresterende enkelvoudige modellen. Projectpagina: rollingdepth.github.io.

English

Video depth estimation lifts monocular video clips to 3D by inferring dense depth at every frame. Recent advances in single-image depth estimation, brought about by the rise of large foundation models and the use of synthetic training data, have fueled a renewed interest in video depth. However, naively applying a single-image depth estimator to every frame of a video disregards temporal continuity, which not only leads to flickering but may also break when camera motion causes sudden changes in depth range. An obvious and principled solution would be to build on top of video foundation models, but these come with their own limitations; including expensive training and inference, imperfect 3D consistency, and stitching routines for the fixed-length (short) outputs. We take a step back and demonstrate how to turn a single-image latent diffusion model (LDM) into a state-of-the-art video depth estimator. Our model, which we call RollingDepth, has two main ingredients: (i) a multi-frame depth estimator that is derived from a single-image LDM and maps very short video snippets (typically frame triplets) to depth snippets. (ii) a robust, optimization-based registration algorithm that optimally assembles depth snippets sampled at various different frame rates back into a consistent video. RollingDepth is able to efficiently handle long videos with hundreds of frames and delivers more accurate depth videos than both dedicated video depth estimators and high-performing single-frame models. Project page: rollingdepth.github.io.

Diepte van video zonder videomodellen

Video Depth without Video Models

Samenvatting

Support