Transformador de Contexto Geométrico para la Reconstrucción 3D en Tiempo Real

Resumen

La reconstrucción 3D en tiempo real tiene como objetivo recuperar información tridimensional, como poses de cámara y nubes de puntos, a partir de una secuencia de vídeo, lo que requiere precisión geométrica, consistencia temporal y eficiencia computacional. Motivados por los principios de Localización y Mapeo Simultáneo (SLAM), presentamos LingBot-Map, un modelo base 3D de avance para reconstruir escenas a partir de datos en flujo, construido sobre una arquitectura de transformador de contexto geométrico (GCT). Un aspecto distintivo de LingBot-Map reside en su mecanismo de atención cuidadosamente diseñado, que integra un contexto de anclaje, una ventana de referencia de poses y una memoria de trayectoria para abordar, respectivamente, el anclaje coordenado, las pistas geométricas densas y la corrección de deriva a largo plazo. Este diseño mantiene el estado de flujo compacto mientras retiene un contexto geométrico rico, permitiendo una inferencia estable y eficiente a aproximadamente 20 FPS en entradas de resolución 518 x 378 sobre secuencias largas que superan las 10,000 frames. Evaluaciones exhaustivas en diversos benchmarks demuestran que nuestro enfoque logra un rendimiento superior en comparación con los métodos existentes basados tanto en flujo continuo como en optimización iterativa.

English

Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around 20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach achieves superior performance compared to both existing streaming and iterative optimization-based approaches.

Transformador de Contexto Geométrico para la Reconstrucción 3D en Tiempo Real

Geometric Context Transformer for Streaming 3D Reconstruction

Resumen

Support