LoGeR: Ricostruzione Geometrica a Lungo Contesto con Memoria Ibrida

Abstract

I modelli feedforward per la ricostruzione geometrica di base ottengono una ricostruzione solida su finestre temporali brevi, ma il loro scaling a video di diversi minuti è limitato dalla complessità quadratica dell'attenzione o dalla memoria efficace limitata nei design ricorrenti. Presentiamo LoGeR (Long-context Geometric Reconstruction), una nuova architettura che scala la ricostruzione 3D densa a sequenze estremamente lunghe senza ottimizzazione a posteriori. LoGeR elabora i flussi video a segmenti, sfruttando forti prior bidirezionali per un ragionamento ad alta fedeltà all'interno del segmento. Per gestire la sfida critica della coerenza attraverso i confini dei segmenti, proponiamo un modulo di memoria ibrido basato sull'apprendimento. Questo sistema a doppia componente combina una memoria parametrica di Addestramento al Tempo di Test (TTT) per ancorare il sistema di coordinate globale e prevenire la deriva di scala, insieme a un meccanismo di Attenzione a Finestra Scorrevole (SWA) non parametrico per preservare il contesto non compresso per un allineamento adiacente ad alta precisione. Notevolmente, questa architettura di memoria consente a LoGeR di essere addestrato su sequenze di 128 frame e di generalizzare fino a migliaia di frame durante l'inferenza. Valutato su benchmark standard e su un dataset VBR riproposto con sequenze fino a 19k frame, LoGeR supera sostanzialmente i precedenti metodi feedforward all'avanguardia—riducendo l'ATE su KITTI di oltre il 74%—e raggiunge una ricostruzione robusta e globalmente coerente su orizzonti senza precedenti.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR: Ricostruzione Geometrica a Lungo Contesto con Memoria Ibrida

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Abstract

Support