ChatPaper.aiChatPaper

HorizonStream: 스트리밍 3D 재구성을 위한 장기 범위 어텐션

HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22, 2026
저자: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang
cs.AI

초록

온라인 3D 재구성은 엄격한 인과적 및 제한된 메모리 제약 조건 하에서 카메라 포즈와 장면 기하를 추정해야 합니다. 기존 방법은 긴 시퀀스에서 드리프트, 지터 또는 붕괴를 자주 겪습니다. 우리는 이러한 실패가 근본적인 부정합에서 비롯된다고 추적합니다. 스트리밍 기하 구조는 본질적으로 시간적으로 이질적이며, 증거는 단기 대응에서 지속적인 전역 스케일에 이르기까지 다양합니다. 그러나 현재의 아키텍처는 균일하고 병리적인 영향 패턴을 강제합니다. 예를 들어, 슬라이딩 윈도우는 하드 컷오프를 강제하고, 게이트 없는 순환과 인과적 어텐션은 캐시 포화와 스파이크 형태의 어텐션 싱크를 유발합니다. 이를 해결하기 위해, 우리는 기하학적 전파를 증거 영향 커널로 공식화하고, 이 커널을 명시적으로 분해하는 장기 지평 트랜스포머인 HorizonStream을 제안합니다. 장기 시간 요소를 위해, 기하학적 선형 어텐션은 채널별 감쇠율을 학습하여 기하 증거의 제한된 다중 시간 규모 전파를 가능하게 합니다. 단기 공간 요소를 위해, 시공간 RoPE를 갖춘 기하학적 지역 어텐션은 어텐션 싱크를 억제하면서 신뢰할 수 있는 3D 매칭을 수행합니다. 마지막으로, 메트릭 리드아웃 토큰은 지속적인 기하 상태에서 직접 안정적인 스케일과 강체 자세를 복구합니다. 광범위한 실험 결과, 48프레임 클립에서만 훈련된 HorizonStream이 일정한 메모리와 선형 시간으로 10,000프레임을 초과하는 시퀀스에 안정적으로 일반화되어 최첨단 스트리밍 3D 재구성 성능을 달성함을 보여줍니다. 프로젝트 페이지: https://3dagentworld.github.io/horizonstream/
English
Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an evidence influence kernel and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/