LoGeR: Long-Context Geometrische Reconstructie met Hybride Geheugen

Samenvatting

Feedforward geometrische foundation-modellen bereiken sterke reconstructie op korte termijn, maar het schalen naar minutenlange video's wordt beperkt door kwadratische aandachtcomplexiteit of beperkt effectief geheugen in recurrente ontwerpen. Wij presenteren LoGeR (Long-context Geometric Reconstruction), een nieuwe architectuur die dichte 3D-reconstructie schaalt naar extreem lange sequenties zonder post-optimalisatie. LoGeR verwerkt videostreams in segmenten en benut sterke bidirectionele priors voor hoogwaardige redenering binnen segmenten. Om de kritieke uitdaging van coherentie over segmentgrenzen heen te beheersen, stellen we een op leren gebaseerde hybride geheugenmodule voor. Dit dual-componentensysteem combineert een parametrisch Test-Time Training (TTT)-geheugen om het globale coördinatenstelsel te verankeren en schaal-drift te voorkomen, naast een niet-parametrisch Sliding Window Attention (SWA)-mechanisme om ongecomprimeerde context te behouden voor hoogprecieze aanliggende uitlijning. Opmerkelijk is dat deze geheugenarchitectuur LoGeR in staat stelt te worden getraind op sequenties van 128 frames, en te generaliseren tot duizenden frames tijdens inferentie. Geëvalueerd op standaardbenchmarks en een nieuw hergebruikte VBR-dataset met sequenties tot 19k frames, overtreft LoGeR eerdere state-of-the-art feedforward methoden aanzienlijk – het reduceert ATE op KITTI met meer dan 74% – en bereikt robuuste, globaal consistente reconstructie over ongekende horizons.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR: Long-Context Geometrische Reconstructie met Hybride Geheugen

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Samenvatting

Support