Zur konsistenten Videogeometrieschätzung

Zusammenfassung

Diese Arbeit stellt ViGeo vor, ein Feed-Forward-Grundlagenmodell zur Rekonstruktion räumlich dichter und zeitlich konsistenter Geometrie aus Videosequenzen. ViGeo basiert auf einer einfachen Transformer-Architektur ohne aufgabenspezifische architektonische Modifikationen und unterstützt Streaming-, Vollsequenz- und Langvideo-Inferenz in einem einheitlichen Modell. Das zentrale Designmerkmal ist die dynamische Aufmerksamkeit auf Chunk-Ebene, die das Modell sowohl bidirektionalen als auch kausalen zeitlichen Kontexten während des Trainings aussetzt und ihm erlaubt, sein Aufmerksamkeitsmuster zur Testzeit ohne erneutes Training anzupassen. Zur Verbesserung der Überwachungsqualität führen wir zudem ein vervollständigungsbasiertes Datenverfeinerungs-Framework ein. Dieses Framework trainiert einen Videotiefen-Vervollständigungs-Lehrer, der auf spärliche und verrauschte Annotationen konditioniert ist und Video-/Multiview-Kontext nutzt, um dichte, zeitlich kohärente und geometrisch zuverlässige Trainingsziele zu erzeugen. Neben Tiefen- und Punktkarten sagt ViGeo im selben Framework auch Oberflächennormalen voraus. Ausschließlich auf öffentlichen Datensätzen trainiert, erzielt ViGeo Spitzenleistungen bei Online-, Offline- und Langvideo-Tiefenschätzung, Oberflächennormalenschätzung und Videopunktkartenschätzung.

English

This work presents ViGeo, a feed-forward foundation model for recovering spatially dense and temporally consistent geometry from video sequences. Built upon a plain transformer architecture without task-specific architectural modifications, ViGeo supports streaming, full-sequence, and long-video inference within a unified model. The key design is dynamic chunking attention, which exposes the model to both bidirectional and causal temporal contexts during training and allows it to adapt its attention pattern at test time without retraining. To improve supervision quality, we further introduce a completion-based data refinement framework. This framework trains a video depth completion teacher that conditions on sparse and noisy annotations and exploits video/multi-view context to produce dense, temporally coherent, and geometrically reliable training targets. Beyond depth and point maps, ViGeo also predicts surface normals within the same framework. Trained solely on public datasets, ViGeo achieves state-of-the-art performance across online, offline, and long-video depth estimation, surface normal estimation, and video point map estimation.