Hacia una estimación consistente de geometría de video

Resumen

Este trabajo presenta ViGeo, un modelo fundacional de avance directo para recuperar geometría espacialmente densa y temporalmente consistente a partir de secuencias de video. Construido sobre una arquitectura de transformer simple sin modificaciones arquitectónicas específicas para la tarea, ViGeo admite inferencia en streaming, de secuencia completa y de video largo dentro de un modelo unificado. El diseño clave es la atención por fragmentación dinámica, que expone al modelo tanto a contextos temporales bidireccionales como causales durante el entrenamiento y le permite adaptar su patrón de atención en tiempo de prueba sin necesidad de reentrenamiento. Para mejorar la calidad de la supervisión, introducimos además un marco de refinamiento de datos basado en completado. Este marco entrena un profesor de completado de profundidad de video que se condiciona a anotaciones dispersas y ruidosas y explota el contexto de video/vistas múltiples para producir objetivos de entrenamiento densos, temporalmente coherentes y geométricamente confiables. Más allá de mapas de profundidad y puntos, ViGeo también predice normales de superficie dentro del mismo marco. Entrenado exclusivamente con conjuntos de datos públicos, ViGeo logra un rendimiento de última generación en estimación de profundidad en línea, fuera de línea y de video largo, estimación de normales de superficie y estimación de mapas de puntos de video.

English

This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.