Trasformatore di Contesto Geometrico per la Ricostruzione 3D in Streaming
Geometric Context Transformer for Streaming 3D Reconstruction
April 15, 2026
Autori: Lin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
cs.AI
Abstract
La ricostruzione 3D in streaming mira a recuperare informazioni tridimensionali, come pose della telecamera e nuvole di punti, da un flusso video, richiedendo precisione geometrica, coerenza temporale ed efficienza computazionale. Ispirati dai principi della localizzazione e mappatura simultanea (SLAM), introduciamo LingBot-Map, un modello fondante 3D feed-forward per la ricostruzione di scene da dati in streaming, basato su un'architettura di trasformatore con contesto geometrico (GCT). Un aspetto distintivo di LingBot-Map risiede nel suo meccanismo di attenzione accuratamente progettato, che integra un contesto di ancoraggio, una finestra di riferimento per le pose e una memoria della traiettoria per affrontare rispettivamente il grounding delle coordinate, gli indizi geometrici densi e la correzione della deriva a lungo raggio. Questo design mantiene lo stato dello streaming compatto conservando al contempo un ricco contesto geometrico, consentendo un'inferenza stabile ed efficiente a circa 20 FPS su input con risoluzione 518x378 su sequenze lunghe superiori a 10.000 fotogrammi. Valutazioni estensive su vari benchmark dimostrano che il nostro approccio raggiunge prestazioni superiori rispetto sia ai metodi esistenti in streaming che a quelli basati su ottimizzazione iterativa.
English
Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal
consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation
model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully
designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and
long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around
20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach
achieves superior performance compared to both existing streaming and iterative optimization-based approaches.