Trasformatore di Contesto Geometrico per la Ricostruzione 3D in Streaming

Abstract

La ricostruzione 3D in streaming mira a recuperare informazioni tridimensionali, come pose della telecamera e nuvole di punti, da un flusso video, richiedendo precisione geometrica, coerenza temporale ed efficienza computazionale. Ispirati dai principi della localizzazione e mappatura simultanea (SLAM), introduciamo LingBot-Map, un modello fondante 3D feed-forward per la ricostruzione di scene da dati in streaming, basato su un'architettura di trasformatore con contesto geometrico (GCT). Un aspetto distintivo di LingBot-Map risiede nel suo meccanismo di attenzione accuratamente progettato, che integra un contesto di ancoraggio, una finestra di riferimento per le pose e una memoria della traiettoria per affrontare rispettivamente il grounding delle coordinate, gli indizi geometrici densi e la correzione della deriva a lungo raggio. Questo design mantiene lo stato dello streaming compatto conservando al contempo un ricco contesto geometrico, consentendo un'inferenza stabile ed efficiente a circa 20 FPS su input con risoluzione 518x378 su sequenze lunghe superiori a 10.000 fotogrammi. Valutazioni estensive su vari benchmark dimostrano che il nostro approccio raggiunge prestazioni superiori rispetto sia ai metodi esistenti in streaming che a quelli basati su ottimizzazione iterativa.

English

Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around 20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach achieves superior performance compared to both existing streaming and iterative optimization-based approaches.

Trasformatore di Contesto Geometrico per la Ricostruzione 3D in Streaming

Geometric Context Transformer for Streaming 3D Reconstruction

Abstract

Support