Video Depth Anything: Estimación Consistente de Profundidad para Videos Superlargos

Resumen

Depth Anything ha logrado un notable éxito en la estimación de profundidad monocular con una sólida capacidad de generalización. Sin embargo, sufre de inconsistencia temporal en videos, lo que dificulta sus aplicaciones prácticas. Se han propuesto diversos métodos para mitigar este problema mediante el aprovechamiento de modelos de generación de video o la introducción de conocimientos previos de flujo óptico y posiciones de cámara. No obstante, estos métodos solo son aplicables a videos cortos (< 10 segundos) y requieren un equilibrio entre calidad y eficiencia computacional. Proponemos Video Depth Anything para una estimación de profundidad consistente y de alta calidad en videos superlargos (de varios minutos) sin sacrificar eficiencia. Basamos nuestro modelo en Depth Anything V2 y reemplazamos su cabeza con una cabeza espacial-temporal eficiente. Diseñamos una pérdida de consistencia temporal directa pero efectiva al restringir el gradiente temporal de profundidad, eliminando la necesidad de conocimientos previos geométricos adicionales. El modelo se entrena en un conjunto de datos conjunto de profundidad de video e imágenes no etiquetadas, similar a Depth Anything V2. Además, se ha desarrollado una estrategia novedosa basada en fotogramas clave para la inferencia de videos largos. Los experimentos muestran que nuestro modelo puede aplicarse a videos de longitud arbitraria sin comprometer calidad, consistencia o capacidad de generalización. Evaluaciones exhaustivas en múltiples conjuntos de datos de video demuestran que nuestro enfoque establece un nuevo estado del arte en la estimación de profundidad de video sin necesidad de entrenamiento. Ofrecemos modelos de diferentes escalas para soportar una variedad de escenarios, siendo nuestro modelo más pequeño capaz de un rendimiento en tiempo real a 30 FPS.

English

Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Video Depth Anything: Estimación Consistente de Profundidad para Videos Superlargos

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Resumen

Support