Video Depth Anything: Stima Coerente della Profondità per Video di Lunga Durata

Abstract

Depth Anything ha ottenuto un notevole successo nella stima della profondità monoculare con una forte capacità di generalizzazione. Tuttavia, soffre di inconsistenza temporale nei video, ostacolando le sue applicazioni pratiche. Sono state proposte varie metodologie per alleviare questo problema sfruttando modelli di generazione video o introducendo vincoli da flussi ottici e posizioni delle telecamere. Tuttavia, queste metodologie sono applicabili solo a video brevi (< 10 secondi) e richiedono un compromesso tra qualità ed efficienza computazionale. Proponiamo Video Depth Anything per una stima della profondità coerente e di alta qualità in video super lunghi (oltre diversi minuti) senza sacrificare l'efficienza. Basiamo il nostro modello su Depth Anything V2 e sostituiamo la sua parte finale con una parte spazio-temporale efficiente. Progettiamo una perdita di consistenza temporale semplice ma efficace vincolando il gradiente temporale della profondità, eliminando la necessità di vincoli geometrici aggiuntivi. Il modello è addestrato su un dataset congiunto di profondità video e immagini non etichettate, simile a Depth Anything V2. Inoltre, è stata sviluppata una nuova strategia basata su frame chiave per l'inferenza video a lungo termine. Gli esperimenti mostrano che il nostro modello può essere applicato a video di lunghezza arbitraria senza compromettere qualità, coerenza o capacità di generalizzazione. Valutazioni approfondite su diversi benchmark video dimostrano che il nostro approccio stabilisce un nuovo stato dell'arte nella stima della profondità video senza supervisione. Offriamo modelli di diverse dimensioni per supportare una gamma di scenari, con il nostro modello più piccolo in grado di garantire prestazioni in tempo reale a 30 FPS.

English

Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Video Depth Anything: Stima Coerente della Profondità per Video di Lunga Durata

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Abstract

Support