LoGeR:ハイブリッドメモリを用いた長文脈幾何学的再構成
LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
March 3, 2026
著者: Junyi Zhang, Charles Herrmann, Junhwa Hur, Chen Sun, Ming-Hsuan Yang, Forrester Cole, Trevor Darrell, Deqing Sun
cs.AI
要旨
フィードフォワード型幾何学基礎モデルは短時間ウィンドウの再構成において強力な性能を発揮するが、分単位の長尺ビデオへのスケーリングは、二次的な注意機構の計算量やリカレント設計における限定的な有効メモリによってボトルネックとなっている。本論文ではLoGeR(Long-context Geometric Reconstruction)を提案する。これはポスト最適化を必要とせず、極めて長いシーケンスに対する高密度3次元再構成を可能にする新たなアーキテクチャである。LoGeRはビデオストリームをチャンク単位で処理し、強力な双方向事前分布を活用して高精度なチャンク内推論を実現する。チャンク境界を越えた一貫性維持という重要な課題に対処するため、学習ベースのハイブリッドメモリモジュールを提案する。この二重構成システムは、大域的座標系を固定化しスケールドリフトを防止するパラメトリックなテストタイムトレーニング(TTT)メモリと、高精度な隣接位置合わせのために非圧縮の文脈を保持する非パラメトリックなスライディングウィンドウ注意機構(SWA)を組み合わせたものである。特筆すべきは、このメモリアーキテクチャにより、LoGeRが128フレームのシーケンスで学習しながら、推論時には数千フレームにまで汎化できる点である。標準ベンチマークと、最大19kフレームのシーケンスを有する新たに再構成したVBRデータセットによる評価において、LoGeRは従来の最先端フィードフォワード手法を大幅に上回り(KITTIにおけるATEを74%以上低減)、前例のない長尺シーケンスにわたる頑健で大域的一貫性のある再構成を達成する。
English
Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.