Rumo à Estimativa Consistente de Geometria de Vídeo

Resumo

Este trabalho apresenta o ViGeo, um modelo fundacional feed-forward para recuperar geometria espacialmente densa e temporalmente consistente a partir de sequências de vídeo. Construído sobre uma arquitetura transformer pura, sem modificações arquiteturais específicas para a tarefa, o ViGeo suporta inferência em streaming, em sequência completa e em vídeos longos dentro de um modelo unificado. A principal inovação é a atenção por agrupamento dinâmico, que expõe o modelo a contextos temporais bidirecionais e causais durante o treinamento e permite que ele adapte seu padrão de atenção no momento do teste sem a necessidade de retreinamento. Para melhorar a qualidade da supervisão, introduzimos ainda um framework de refinamento de dados baseado em completação. Esse framework treina um professor de completação de profundidade de vídeo que se condiciona a anotações esparsas e ruidosas e explora o contexto de vídeo/multi-visão para produzir alvos de treinamento densos, temporalmente coerentes e geometricamente confiáveis. Além de mapas de profundidade e de pontos, o ViGeo também prevê normais de superfície dentro do mesmo framework. Treinado exclusivamente em conjuntos de dados públicos, o ViGeo alcança desempenho de estado da arte em estimativa de profundidade online, offline e para vídeos longos, estimativa de normais de superfície e estimativa de mapas de pontos de vídeo.

English

This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.