HorizonStream: Lange-termijn Aandacht voor Streaming 3D-reconstructie
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
May 22, 2026
Auteurs: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang
cs.AI
Samenvatting
Online 3D-reconstructie vereist het schatten van camerapositie en scènegeometrie onder strikte causale en geheugenbegrensde beperkingen. Bestaande methoden hebben vaak last van drift, jitter of instorting bij lange sequenties. We herleiden deze fouten tot een fundamentele mismatch. Stromingsgeometrie is inherent temporeel heterogeen, met bewijs variërend van kortstondige correspondentie tot aanhoudende globale schaal. Huidige architecturen leggen echter uniforme en pathologische invloedspatronen op. Zo dwingen schuifvensters harde afkappingen af, terwijl niet-gegate recurrente en causale attention leiden tot cacheverzadiging en piekachtige attention sinks. Om dit op te lossen formaliseren we geometrische propagatie als een bewijsinvloedkern en stellen we HorizonStream voor, een lange-horizon Transformer die deze kern expliciet factoriseert. Voor de temporele factor op lange afstand leert Geometric Linear Attention kanaalsgewijze vervalsnelheden, wat een begrensde, meerschalige propagatie van geometrisch bewijs mogelijk maakt. Voor de ruimtelijke factor op korte afstand voert Geometric Local Attention met Spatiotemporal RoPE betrouwbare 3D-matching uit, terwijl attention sinks worden onderdrukt. Ten slotte herstellen Metric Readout Tokens stabiele schaal en rigide positie direct uit de persistente geometrische toestand. Uitgebreide experimenten tonen aan dat HorizonStream, getraind op clips van slechts 48 frames, stabiel generaliseert naar sequenties van meer dan 10.000 frames met constant geheugen en lineaire tijd, wat resulteert in state-of-the-art streaming 3D-reconstructieprestaties. Projectpagina: https://3dagentworld.github.io/horizonstream/
English
Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an evidence influence kernel and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/