HorizonStream: Долгосрочное внимание для потоковой 3D-реконструкции
HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
May 22, 2026
Авторы: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang
cs.AI
Аннотация
Онлайн-реконструкция 3D требует оценки позы камеры и геометрии сцены в условиях строгих каузальных ограничений и ограниченной памяти. Существующие методы часто страдают от дрейфа, дрожания или коллапса на длинных последовательностях. Мы связываем эти сбои с фундаментальным несоответствием. Потоковая геометрия по своей сути является временно неоднородной, при этом свидетельства варьируются от кратковременных соответствий до устойчивого глобального масштаба. Однако современные архитектуры навязывают однородные и патологические шаблоны влияния. Например, скользящие окна устанавливают жесткие границы отсечения, в то время как негейтированная рекуррентность и каузальное внимание приводят к насыщению кэша и всплескам внимания типа «раковин». Для решения этой проблемы мы формализуем геометрическое распространение как ядро влияния свидетельств и предлагаем HorizonStream — долгосрочный трансформер, явно факторизующий это ядро. Для долгосрочного временного фактора Геометрическое Линейное Внимание изучает поканальные скорости затухания, обеспечивая ограниченное распространение геометрических свидетельств на множественных временных масштабах. Для краткосрочного пространственного фактора Геометрическое Локальное Внимание с пространственно-временным RoPE выполняет надежное 3D-сопоставление, подавляя при этом «раковины» внимания. Наконец, Метрические Считывающие Токены восстанавливают стабильный масштаб и жесткую позу непосредственно из устойчивого геометрического состояния. Обширные эксперименты показывают, что HorizonStream, обученный только на клипах из 48 кадров, стабильно обобщается на последовательности, превышающие 10 000 кадров, с постоянной памятью и линейным временем, достигая передовой производительности потоковой 3D-реконструкции. Страница проекта: https://3dagentworld.github.io/horizonstream/
English
Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an evidence influence kernel and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/