Video Depth Anything: Estimación Consistente de Profundidad para Videos Superlargos
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
January 21, 2025
Autores: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Resumen
Depth Anything ha logrado un notable éxito en la estimación de profundidad monocular con una sólida capacidad de generalización. Sin embargo, sufre de inconsistencia temporal en videos, lo que dificulta sus aplicaciones prácticas. Se han propuesto diversos métodos para mitigar este problema mediante el aprovechamiento de modelos de generación de video o la introducción de conocimientos previos de flujo óptico y posiciones de cámara. No obstante, estos métodos solo son aplicables a videos cortos (< 10 segundos) y requieren un equilibrio entre calidad y eficiencia computacional. Proponemos Video Depth Anything para una estimación de profundidad consistente y de alta calidad en videos superlargos (de varios minutos) sin sacrificar eficiencia. Basamos nuestro modelo en Depth Anything V2 y reemplazamos su cabeza con una cabeza espacial-temporal eficiente. Diseñamos una pérdida de consistencia temporal directa pero efectiva al restringir el gradiente temporal de profundidad, eliminando la necesidad de conocimientos previos geométricos adicionales. El modelo se entrena en un conjunto de datos conjunto de profundidad de video e imágenes no etiquetadas, similar a Depth Anything V2. Además, se ha desarrollado una estrategia novedosa basada en fotogramas clave para la inferencia de videos largos. Los experimentos muestran que nuestro modelo puede aplicarse a videos de longitud arbitraria sin comprometer calidad, consistencia o capacidad de generalización. Evaluaciones exhaustivas en múltiples conjuntos de datos de video demuestran que nuestro enfoque establece un nuevo estado del arte en la estimación de profundidad de video sin necesidad de entrenamiento. Ofrecemos modelos de diferentes escalas para soportar una variedad de escenarios, siendo nuestro modelo más pequeño capaz de un rendimiento en tiempo real a 30 FPS.
English
Depth Anything has achieved remarkable success in monocular depth estimation
with strong generalization ability. However, it suffers from temporal
inconsistency in videos, hindering its practical applications. Various methods
have been proposed to alleviate this issue by leveraging video generation
models or introducing priors from optical flow and camera poses. Nonetheless,
these methods are only applicable to short videos (< 10 seconds) and require a
trade-off between quality and computational efficiency. We propose Video Depth
Anything for high-quality, consistent depth estimation in super-long videos
(over several minutes) without sacrificing efficiency. We base our model on
Depth Anything V2 and replace its head with an efficient spatial-temporal head.
We design a straightforward yet effective temporal consistency loss by
constraining the temporal depth gradient, eliminating the need for additional
geometric priors. The model is trained on a joint dataset of video depth and
unlabeled images, similar to Depth Anything V2. Moreover, a novel
key-frame-based strategy is developed for long video inference. Experiments
show that our model can be applied to arbitrarily long videos without
compromising quality, consistency, or generalization ability. Comprehensive
evaluations on multiple video benchmarks demonstrate that our approach sets a
new state-of-the-art in zero-shot video depth estimation. We offer models of
different scales to support a range of scenarios, with our smallest model
capable of real-time performance at 30 FPS.Summary
AI-Generated Summary