К согласованной оценке геометрии видео

Аннотация

Данная работа представляет ViGeo, прямосвязную базовую модель для восстановления пространственно плотной и временно согласованной геометрии из видеопоследовательностей. Построенная на основе простой архитектуры трансформера без архитектурных модификаций, специфичных для задачи, ViGeo поддерживает инференс в потоковом режиме, на полной последовательности и на длинных видео в рамках единой модели. Ключевым элементом дизайна является динамическое блочное внимание, которое подвергает модель как двунаправленному, так и каузальному временному контексту во время обучения и позволяет ей адаптировать свой паттерн внимания во время тестирования без переобучения. Для улучшения качества супервизии мы также представляем фреймворк уточнения данных на основе восполнения. Этот фреймворк обучает видео-учителя восполнения глубины, который обусловлен разреженными и зашумленными аннотациями и использует видеоконтекст и контекст множества видов для создания плотных, временно согласованных и геометрически надежных обучающих целей. Помимо карт глубины и точечных карт, ViGeo также предсказывает нормали поверхности в рамках того же фреймворка. Обученная исключительно на публичных наборах данных, ViGeo достигает современного уровня производительности в оценке глубины в онлайн-режиме, офлайн-режиме и для длинных видео, оценке нормалей поверхности и оценке точечных карт видео.

English

This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.