HorizonStream : Attention à long horizon pour la reconstruction 3D en continu
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
May 22, 2026
Auteurs: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang
cs.AI
Résumé
La reconstruction 3D en ligne nécessite l'estimation de la pose de la caméra et de la géométrie de la scène sous des contraintes strictes de causalité et de mémoire bornée. Les méthodes existantes souffrent souvent de dérive, de tremblements ou d'effondrement sur les longues séquences. Nous attribuons ces échecs à une inadéquation fondamentale. La géométrie en flux est intrinsèquement hétérogène dans le temps, avec des indices allant de correspondances éphémères à une échelle globale persistante. Cependant, les architectures actuelles imposent des schémas d'influence uniformes et pathologiques. Par exemple, les fenêtres glissantes imposent des coupures nettes, tandis que la récurrence non régulée et l'attention causale provoquent une saturation du cache et des puits d'attention en forme de pics. Pour résoudre ce problème, nous formalisons la propagation géométrique comme un noyau d'influence de preuves et proposons HorizonStream, un Transformer à long horizon qui factorise explicitement ce noyau. Pour le facteur temporel à longue portée, l'Attention Linéaire Géométrique apprend des taux de décroissance par canal afin de permettre une propagation bornée et multi-échelle des preuves géométriques. Pour le facteur spatial à courte portée, l'Attention Locale Géométrique avec RoPE Spatiotemporelle effectue un appariement 3D fiable tout en supprimant les puits d'attention. Enfin, les Jetons de Lecture Métrique récupèrent une échelle stable et une pose rigide directement à partir de l'état géométrique persistant. Des expériences approfondies montrent qu'HorizonStream, entraîné uniquement sur des clips de 48 images, se généralise de manière stable à des séquences dépassant 10 000 images avec une mémoire constante et un temps linéaire, atteignant des performances de pointe en reconstruction 3D en continu. Page du projet : https://3dagentworld.github.io/horizonstream/
English
Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an evidence influence kernel and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/