Transformador de Contexto Geométrico para Reconstrução 3D em Fluxo Contínuo
Geometric Context Transformer for Streaming 3D Reconstruction
April 15, 2026
Autores: Lin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
cs.AI
Resumo
A reconstrução 3D em tempo real visa recuperar informações tridimensionais, como poses de câmera e nuvens de pontos, a partir de um fluxo de vídeo, o que exige precisão geométrica, consistência temporal e eficiência computacional. Motivados pelos princípios de Localização e Mapeamento Simultâneos (SLAM), apresentamos o LingBot-Map, um modelo de base 3D *feed-forward* para reconstruir cenas a partir de dados em fluxo, construído sobre uma arquitetura de transformador de contexto geométrico (GCT). Um aspecto definidor do LingBot-Map reside em seu mecanismo de atenção cuidadosamente projetado, que integra um contexto âncora, uma janela de referência de pose e uma memória de trajetória para abordar, respetivamente, a ancoragem de coordenadas, pistas geométricas densas e a correção de *drift* de longo alcance. Este projeto mantém o estado do fluxo compacto, enquanto retém um contexto geométrico rico, permitindo inferência estável e eficiente a cerca de 20 FPS em entradas de resolução 518 x 378 ao longo de sequências longas que excedem 10.000 quadros. Avaliações extensas em vários *benchmarks* demonstram que nossa abordagem alcança desempenho superior comparado tanto a abordagens existentes de fluxo contínuo quanto às baseadas em otimização iterativa.
English
Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal
consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation
model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully
designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and
long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around
20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach
achieves superior performance compared to both existing streaming and iterative optimization-based approaches.