Vers une estimation cohérente de la géométrie vidéo

Résumé

Ce travail présente ViGeo, un modèle fondateur feed-forward pour la récupération de géométrie spatialement dense et temporellement cohérente à partir de séquences vidéo. Construit sur une architecture transformer simple, sans modification architecturale spécifique à la tâche, ViGeo prend en charge l'inférence en streaming, sur séquence complète et sur vidéo longue au sein d'un modèle unifié. L'élément clé est l'attention par regroupement dynamique, qui expose le modèle à des contextes temporels à la fois bidirectionnels et causaux pendant l'entraînement et lui permet d'adapter son schéma d'attention au moment du test sans nécessiter de réentraînement. Pour améliorer la qualité de la supervision, nous introduisons en outre un cadre de raffinement des données basé sur la complétion. Ce cadre entraîne un enseignant de complétion de profondeur vidéo qui s'appuie sur des annotations éparses et bruitées et exploite le contexte vidéo/multi-vue pour produire des cibles d'entraînement denses, temporellement cohérentes et géométriquement fiables. Au-delà des cartes de profondeur et des cartes de points, ViGeo prédit également les normales de surface au sein du même cadre. Entraîné uniquement sur des jeux de données publics, ViGeo atteint des performances de pointe en estimation de profondeur en ligne, hors ligne et sur vidéo longue, en estimation de normales de surface et en estimation de cartes de points vidéo.

English

This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.