STream3R: Reconstrução Sequencial 3D Escalável com Transformer Causal
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
August 14, 2025
Autores: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI
Resumo
Apresentamos o STream3R, uma abordagem inovadora para reconstrução 3D que reformula a predição de mapas de pontos como um problema de Transformer apenas com decodificador. Os métodos atuais de última geração para reconstrução multi-visão dependem de otimização global custosa ou se apoiam em mecanismos de memória simplistas que escalam mal com o comprimento da sequência. Em contraste, o STream3R introduz um framework de streaming que processa sequências de imagens de forma eficiente usando atenção causal, inspirado pelos avanços na modelagem moderna de linguagem. Ao aprender priores geométricos de grandes conjuntos de dados 3D, o STream3R generaliza bem para cenários diversos e desafiadores, incluindo cenas dinâmicas onde métodos tradicionais frequentemente falham. Experimentos extensivos mostram que nosso método supera consistentemente trabalhos anteriores em benchmarks tanto de cenas estáticas quanto dinâmicas. Além disso, o STream3R é intrinsecamente compatível com infraestruturas de treinamento no estilo LLM, permitindo pré-treinamento e ajuste fino em grande escala para várias tarefas 3D subsequentes. Nossos resultados destacam o potencial dos modelos Transformer causais para percepção 3D online, abrindo caminho para o entendimento 3D em tempo real em ambientes de streaming. Mais detalhes podem ser encontrados em nossa página do projeto: https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates
pointmap prediction as a decoder-only Transformer problem. Existing
state-of-the-art methods for multi-view reconstruction either depend on
expensive global optimization or rely on simplistic memory mechanisms that
scale poorly with sequence length. In contrast, STream3R introduces an
streaming framework that processes image sequences efficiently using causal
attention, inspired by advances in modern language modeling. By learning
geometric priors from large-scale 3D datasets, STream3R generalizes well to
diverse and challenging scenarios, including dynamic scenes where traditional
methods often fail. Extensive experiments show that our method consistently
outperforms prior work across both static and dynamic scene benchmarks.
Moreover, STream3R is inherently compatible with LLM-style training
infrastructure, enabling efficient large-scale pretraining and fine-tuning for
various downstream 3D tasks. Our results underscore the potential of causal
Transformer models for online 3D perception, paving the way for real-time 3D
understanding in streaming environments. More details can be found in our
project page: https://nirvanalan.github.io/projects/stream3r.