LoGeR: Langkontext-Geometrierekonstruktion mit hybridem Speicher

Zusammenfassung

Feedforward-geometrische Basismodelle erreichen eine starke Rekonstruktion in kurzen Zeitfenstern, doch ihre Skalierung auf minutenlange Videos wird durch die quadratische Komplexität von Attention oder begrenzten effektiven Speicher in rekurrenten Designs begrenzt. Wir stellen LoGeR (Long-context Geometric Reconstruction) vor, eine neuartige Architektur, die dichte 3D-Rekonstruktion auf extrem lange Sequenzen ohne Nachoptimierung skaliert. LoGeR verarbeitet Videoströme in Segmenten und nutzt starke bidirektionale Priors für hochpräzises Schlussfolgern innerhalb eines Segments. Um die kritische Herausforderung der Kohärenz über Segmentgrenzen hinweg zu bewältigen, schlagen wir ein lernbares hybrides Speichermodul vor. Dieses duale System kombiniert einen parametrischen Test-Time Training (TTT)-Speicher, um das globale Koordinatensystem zu verankern und Maßstabsdrift zu verhindern, mit einem nicht-parametrischen Sliding Window Attention (SWA)-Mechanismus, um unkomprimierten Kontext für hochpräzise benachbarte Ausrichtung zu bewahren. Bemerkenswerterweise ermöglicht diese Speicherarchitektur LoGeR, auf Sequenzen von 128 Frames trainiert zu werden und sich auf bis zu Tausende von Frames während der Inferenz zu verallgemeinern. Ausgewertet anhand standardisierter Benchmarks und einem neu angepassten VBR-Datensatz mit Sequenzen von bis zu 19.000 Frames, übertrifft LoGeR frühere state-of-the-art Feedforward-Methoden deutlich – reduziert den ATE auf KITTI um über 74 % – und erreicht eine robuste, global konsistente Rekonstruktion über beispiellose Zeiträume.

English

Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.

LoGeR: Langkontext-Geometrierekonstruktion mit hybridem Speicher

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Zusammenfassung

Support