HorizonStream: Atención de Horizonte Largo para Reconstrucción 3D en Streaming
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
May 22, 2026
Autores: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang
cs.AI
Resumen
La reconstrucción 3D en línea requiere estimar la pose de la cámara y la geometría de la escena bajo estrictas restricciones causales y de memoria acotada. Los métodos existentes a menudo sufren de deriva, vibración o colapso en secuencias largas. Atribuimos estos fallos a una discrepancia fundamental. La geometría en flujo continuo es inherentemente heterogénea temporalmente, con evidencia que va desde correspondencias de corta duración hasta escalas globales persistentes. Sin embargo, las arquitecturas actuales imponen patrones de influencia uniformes y patológicos. Por ejemplo, las ventanas deslizantes aplican cortes abruptos, mientras que la recurrencia no regulada y la atención causal provocan saturación de caché y sumideros de atención en forma de picos. Para resolver esto, formalizamos la propagación geométrica como un núcleo de influencia de evidencia y proponemos HorizonStream, un Transformer de horizonte largo que factoriza explícitamente este núcleo. Para el factor temporal de largo alcance, la Atención Lineal Geométrica aprende tasas de decaimiento por canal, permitiendo una propagación acotada y a múltiples escalas temporales de la evidencia geométrica. Para el factor espacial de corto alcance, la Atención Local Geométrica con RoPE Espaciotemporal realiza un emparejamiento 3D fiable mientras suprime los sumideros de atención. Finalmente, los Tokens de Lectura Métrica recuperan la escala estable y la pose rígida directamente del estado geométrico persistente. Experimentos exhaustivos muestran que HorizonStream, entrenado solo con clips de 48 fotogramas, se generaliza de forma estable a secuencias que superan los 10.000 fotogramas con memoria constante y tiempo lineal, logrando un rendimiento de vanguardia en reconstrucción 3D en flujo continuo. Página del proyecto: https://3dagentworld.github.io/horizonstream/
English
Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an evidence influence kernel and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/