LoGeR : Reconstruction géométrique en contexte long avec mémoire hybride

Résumé

Les modèles géométriques feedforward atteignent une reconstruction solide sur de courtes fenêtres temporelles, mais leur passage à des vidéos de plusieurs minutes est limité par la complexité quadratique de l'attention ou la mémoire effective restreinte des architectures récurrentes. Nous présentons LoGeR (Long-context Geometric Reconstruction), une architecture novatrice qui étend la reconstruction 3D dense à des séquences extrêmement longues sans post-optimisation. LoGeR traite les flux vidéo par segments, en exploitant des préconnaissances bidirectionnelles fortes pour un raisonnement intra-segment de haute fidélité. Pour gérer le défi critique de la cohérence aux limites des segments, nous proposons un module de mémoire hybride basé sur l'apprentissage. Ce système à double composante combine une mémoire paramétrique par entraînement au moment du test (TTT) pour ancrer le repère global et prévenir la dérive d'échelle, ainsi qu'un mécanisme d'attention glissante non paramétrique (SWA) pour préserver un contexte non compressé permettant un alignement adjacent de haute précision. Fait remarquable, cette architecture mémorielle permet à LoGeR d'être entraîné sur des séquences de 128 images et de généraliser jusqu'à des milliers d'images lors de l'inférence. Évalué sur des benchmarks standards et un nouveau dataset VBR réadapté avec des séquences allant jusqu'à 19 000 images, LoGeR surpasse substantiellement les méthodes feedforward antérieures de l'état de l'art – réduisant l'ATE sur KITTI de plus de 74 % – et réalise une reconstruction robuste et globalement cohérente sur des horizons sans précédent.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR : Reconstruction géométrique en contexte long avec mémoire hybride

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Résumé

Support