ChatPaper.aiChatPaper

LoGeR: 하이브리드 메모리를 활용한 장문맥 기하 복원

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

March 3, 2026
저자: Junyi Zhang, Charles Herrmann, Junhwa Hur, Chen Sun, Ming-Hsuan Yang, Forrester Cole, Trevor Darrell, Deqing Sun
cs.AI

초록

피드포워드 기하학적 기초 모델은 짧은 구간 재구성에서 우수한 성능을 달성하지만, 분 단위 영상으로 확장 적용 시 순환 설계의 2차 어텐션 복잡도나 제한된 유효 메모리로 인해 병목 현상이 발생합니다. 본 논문에서는 사후 최적화 없이 극도로 긴 시퀀스에 대한 조밀한 3차원 재구성을 확장하는 새로운 아키텍처인 LoGeR(Long-context Geometric Reconstruction)을 제시합니다. LoGeR은 영상 스트림을 청크 단위로 처리하며 강력한 양방향 사전 정보를 활용하여 높은 정밀도의 청크 내 추론을 수행합니다. 청크 경계 간 일관성이라는 핵심 과제를 관리하기 위해 학습 기반 하이브리드 메모리 모듈을 제안합니다. 이 이중 구성 요소 시스템은 글로벌 좌표계를 고정하고 스케일 드리프트를 방지하는 파라메트릭 테스트 타임 트레이닝(TTT) 메모리와, 고정밀 인접 정렬을 위해 비압축 컨텍스트를 보존하는 비파라메트릭 슬라이딩 윈도우 어텐션(SWA) 메커니즘을 결합합니다. 주목할 점은 이 메모리 아키텍처로 인해 LoGeR이 128프레임 시퀀스로 훈련된 후 추론 시 수천 프레임까지 일반화가 가능하다는 것입니다. 표준 벤치마크와 최대 19,000프레임 시퀀스로 재구성된 새로운 VBR 데이터셋에서 평가한 결과, LoGeR은 기존 최첨단 피드포워드 방법을 크게 능가하며(KITTI에서 ATE 74% 이상 감소) 전례 없는 범위에서 견고하고 전역적으로 일관된 재구성을 달성합니다.
English
Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.
PDF546March 16, 2026