Contexte Géométrique par Transformateur pour la Reconstruction 3D en Flux Continu
Geometric Context Transformer for Streaming 3D Reconstruction
April 15, 2026
Auteurs: Lin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
cs.AI
Résumé
La reconstruction 3D en flux continu vise à reconstituer les informations tridimensionnelles, telles que les poses de caméra et les nuages de points, à partir d'un flux vidéo, ce qui nécessite une précision géométrique, une cohérence temporelle et une efficacité computationnelle. Motivés par les principes de la localisation et cartographie simultanées (SLAM), nous présentons LingBot-Map, un modèle de fond 3D à propagation avant pour la reconstruction de scènes à partir de données en flux continu, construit sur une architecture de transformeur à contexte géométrique (GCT). Un aspect déterminant de LingBot-Map réside dans son mécanisme d'attention soigneusement conçu, qui intègre un contexte d'ancrage, une fenêtre de référence de pose et une mémoire de trajectoire pour aborder respectivement l'ancrage des coordonnées, les indices géométriques denses et la correction de la dérive à long terme. Cette conception maintient l'état du flux compact tout en conservant un riche contexte géométrique, permettant une inférence stable et efficace à environ 20 images par seconde sur des entrées de résolution 518 x 378 sur de longues séquences dépassant 10 000 images. Des évaluations approfondies sur divers benchmarks démontrent que notre approche atteint des performances supérieures par rapport aux méthodes existantes, qu'elles soient basées sur le flux continu ou sur l'optimisation itérative.
English
Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal
consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation
model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully
designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and
long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around
20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach
achieves superior performance compared to both existing streaming and iterative optimization-based approaches.