Geometrischer Kontexttransformer für Streaming-3D-Rekonstruktion

Zusammenfassung

Streaming-3D-Rekonstruktion zielt darauf ab, 3D-Informationen wie Kameraposen und Punktwolken aus einem Videostream zu gewinnen, was geometrische Genauigkeit, zeitliche Konsistenz und Recheneffizienz erfordert. Inspiriert von den Prinzipien des Simultaneous Localization and Mapping (SLAM) stellen wir LingBot-Map vor, ein vorwärtsgerichtetes 3D-Foundation-Modell zur Rekonstruktion von Szenen aus Streaming-Daten, das auf einer geometrischen Kontext-Transformer (GCT)-Architektur aufbaut. Ein entscheidender Aspekt von LingBot-Map liegt in seinem sorgfältig gestalteten Attention-Mechanismus, der einen Ankerkontext, ein posenbezogenes Referenzfenster und einen Trajektorienspeicher integriert, um jeweils Koordinatenverankerung, dichte geometrische Hinweise und Korrektur von Drift über lange Distanzen zu adressieren. Dieser Aufbau hält den Streaming-Zustand kompakt, bewahrt jedoch einen reichen geometrischen Kontext, was eine stabile und effiziente Inferenz mit etwa 20 FPS bei Eingaben mit einer Auflösung von 518 x 378 über lange Sequenzen von mehr als 10.000 Einzelbildern ermöglicht. Umfangreiche Auswertungen über eine Vielzahl von Benchmarks zeigen, dass unser Ansatz im Vergleich zu bestehenden Streaming- und iterativen optimierungsbasierten Verfahren eine überlegene Leistung erzielt.

English

Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around 20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach achieves superior performance compared to both existing streaming and iterative optimization-based approaches.

Geometrischer Kontexttransformer für Streaming-3D-Rekonstruktion

Geometric Context Transformer for Streaming 3D Reconstruction

Zusammenfassung

Support