Геометрический контекстный трансформер для потоковой 3D-реконструкции

Аннотация

Потоковая 3D-реконструкция ставит целью восстановление 3D-информации, такой как позы камер и облака точек, из видеопотока, что требует геометрической точности, временной согласованности и вычислительной эффективности. Руководствуясь принципами одновременной локализации и построения карт (SLAM), мы представляем LingBot-Map — прямую 3D-фундаментальную модель для реконструкции сцен из потоковых данных, построенную на основе архитектуры геометрического трансформера контекста (GCT). Ключевой особенностью LingBot-Map является тщательно спроектированный механизм внимания, который интегрирует якорный контекст, позо-ориентированное окно и память траектории для решения задач привязки к системе координат, использования плотных геометрических признаков и коррекции долгосрочного дрейфа соответственно. Такая конструкция сохраняет состояние потока компактным, одновременно удерживая богатый геометрический контекст, что позволяет стабильно выполнять эффективный вывод со скоростью около 20 кадров/с на входных данных разрешением 518 x 378 в длинных последовательностях, превышающих 10 000 кадров. Обширные оценки на различных бенчмарках демонстрируют, что наш подход превосходит по производительности как существующие потоковые методы, так и подходы, основанные на итеративной оптимизации.

English

Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around 20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach achieves superior performance compared to both existing streaming and iterative optimization-based approaches.

Геометрический контекстный трансформер для потоковой 3D-реконструкции

Geometric Context Transformer for Streaming 3D Reconstruction

Аннотация

Support