ChatPaper.aiChatPaper

HorizonStream: Atenção de Longo Horizonte para Reconstrução 3D em Streaming

HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction

May 22, 2026
Autores: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang
cs.AI

Resumo

Reconstrução 3D online exige estimar a pose da câmera e a geometria da cena sob restrições estritas de causalidade e memória limitada. Métodos existentes frequentemente sofrem com deriva, oscilação ou colapso em sequências longas. Atribuímos essas falhas a uma incompatibilidade fundamental. A geometria em streaming é inerentemente heterogênea temporalmente, com evidências que variam de correspondências de curta duração a escalas globais persistentes. No entanto, arquiteturas atuais impõem padrões de influência uniformes e patológicos. Por exemplo, janelas deslizantes impõem cortes abruptos, enquanto recorrência sem portão e atenção causal causam saturação de cache e sumidouros de atenção em forma de pico. Para resolver isso, formalizamos a propagação geométrica como um kernel de influência de evidência e propomos o HorizonStream, um Transformer de longo horizonte que fatora explicitamente esse kernel. Para o fator temporal de longo alcance, a Atenção Linear Geométrica aprende taxas de decaimento por canal, permitindo propagação limitada e multi-escala de evidência geométrica. Para o fator espacial de curto alcance, a Atenção Local Geométrica com RoPE Espaço-Temporal realiza correspondência 3D confiável enquanto suprime sumidouros de atenção. Finalmente, Tokens de Leitura Métrica recuperam escala estável e pose rígida diretamente do estado geométrico persistente. Experimentos extensivos mostram que o HorizonStream, treinado apenas com clipes de 48 quadros, generaliza de forma estável para sequências que excedem 10.000 quadros com memória constante e tempo linear, alcançando desempenho de ponta em reconstrução 3D em streaming. Página do Projeto: https://3dagentworld.github.io/horizonstream/
English
Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an evidence influence kernel and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/