Profundidade de Vídeo Infinita: Estimativa de Profundidade Consistente para Vídeos Super Longos

Resumo

O Depth Anything alcançou um sucesso notável na estimativa de profundidade monocular com forte capacidade de generalização. No entanto, ele sofre de inconsistência temporal em vídeos, o que prejudica suas aplicações práticas. Vários métodos foram propostos para mitigar esse problema, aproveitando modelos de geração de vídeo ou introduzindo premissas do fluxo óptico e poses de câmera. No entanto, esses métodos são aplicáveis apenas a vídeos curtos (< 10 segundos) e requerem um equilíbrio entre qualidade e eficiência computacional. Propomos o Video Depth Anything para estimativa de profundidade consistente e de alta qualidade em vídeos super longos (com vários minutos) sem sacrificar a eficiência. Baseamos nosso modelo no Depth Anything V2 e substituímos sua estrutura por uma estrutura espacial-temporal eficiente. Projetamos uma perda de consistência temporal direta, porém eficaz, restringindo o gradiente de profundidade temporal, eliminando a necessidade de premissas geométricas adicionais. O modelo é treinado em um conjunto de dados conjunto de profundidade de vídeo e imagens não rotuladas, semelhante ao Depth Anything V2. Além disso, uma nova estratégia baseada em quadros-chave é desenvolvida para inferência em vídeos longos. Experimentos mostram que nosso modelo pode ser aplicado a vídeos arbitrariamente longos sem comprometer qualidade, consistência ou capacidade de generalização. Avaliações abrangentes em vários benchmarks de vídeo demonstram que nossa abordagem estabelece um novo estado da arte na estimativa de profundidade de vídeo sem necessidade de treinamento. Oferecemos modelos de diferentes escalas para suportar uma variedade de cenários, sendo nosso menor modelo capaz de desempenho em tempo real a 30 FPS.

English

Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

Profundidade de Vídeo Infinita: Estimativa de Profundidade Consistente para Vídeos Super Longos

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Resumo

Support