Видео Глубина Всего: Постоянная Оценка Глубины для Супер-длинных Видео
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
January 21, 2025
Авторы: Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Аннотация
Depth Anything достиг впечатляющего успеха в оценке глубины по одному изображению с сильной обобщающей способностью. Однако он страдает от временной несогласованности в видео, что затрудняет его практическое применение. Были предложены различные методы для смягчения этой проблемы путем использования моделей генерации видео или введения априорных знаний из оптического потока и поз камеры. Тем не менее, эти методы применимы только к коротким видео (< 10 секунд) и требуют компромисса между качеством и вычислительной эффективностью. Мы предлагаем Video Depth Anything для высококачественной, последовательной оценки глубины в сверхдлинных видео (длительностью несколько минут) без ущерба эффективности. Мы основываем нашу модель на Depth Anything V2 и заменяем его голову на эффективную пространственно-временную голову. Мы разрабатываем простую, но эффективную потерю временной согласованности, ограничивая временной градиент глубины и устраняя необходимость в дополнительных геометрических априорных знаниях. Модель обучается на совместном наборе данных видео глубины и неразмеченных изображений, аналогично Depth Anything V2. Более того, разработана новая стратегия на основе ключевых кадров для вывода длинных видео. Эксперименты показывают, что нашу модель можно применять к произвольно длинным видео без ущерба качеству, последовательности или обобщающей способности. Комплексные оценки на нескольких видео бенчмарках демонстрируют, что наш подход устанавливает новый уровень качества в оценке глубины видео без обучения. Мы предлагаем модели различных масштабов для поддержки широкого спектра сценариев, наша самая маленькая модель способна к реальному времени с производительностью 30 кадров в секунду.
English
Depth Anything has achieved remarkable success in monocular depth estimation
with strong generalization ability. However, it suffers from temporal
inconsistency in videos, hindering its practical applications. Various methods
have been proposed to alleviate this issue by leveraging video generation
models or introducing priors from optical flow and camera poses. Nonetheless,
these methods are only applicable to short videos (< 10 seconds) and require a
trade-off between quality and computational efficiency. We propose Video Depth
Anything for high-quality, consistent depth estimation in super-long videos
(over several minutes) without sacrificing efficiency. We base our model on
Depth Anything V2 and replace its head with an efficient spatial-temporal head.
We design a straightforward yet effective temporal consistency loss by
constraining the temporal depth gradient, eliminating the need for additional
geometric priors. The model is trained on a joint dataset of video depth and
unlabeled images, similar to Depth Anything V2. Moreover, a novel
key-frame-based strategy is developed for long video inference. Experiments
show that our model can be applied to arbitrarily long videos without
compromising quality, consistency, or generalization ability. Comprehensive
evaluations on multiple video benchmarks demonstrate that our approach sets a
new state-of-the-art in zero-shot video depth estimation. We offer models of
different scales to support a range of scenarios, with our smallest model
capable of real-time performance at 30 FPS.Summary
AI-Generated Summary