STream3R: Reconstrucción Secuencial 3D Escalable con Transformer Causal
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
August 14, 2025
Autores: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI
Resumen
Presentamos STream3R, un enfoque novedoso para la reconstrucción 3D que reformula la predicción de mapas de puntos como un problema de Transformer de solo decodificación. Los métodos actuales más avanzados para la reconstrucción multivista dependen de una optimización global costosa o se basan en mecanismos de memoria simplistas que escalan deficientemente con la longitud de la secuencia. En contraste, STream3R introduce un marco de trabajo en flujo que procesa secuencias de imágenes de manera eficiente utilizando atención causal, inspirado en avances en el modelado moderno del lenguaje. Al aprender priors geométricos de conjuntos de datos 3D a gran escala, STream3R generaliza bien a escenarios diversos y desafiantes, incluyendo escenas dinámicas donde los métodos tradicionales suelen fallar. Experimentos exhaustivos muestran que nuestro método supera consistentemente trabajos previos en benchmarks tanto de escenas estáticas como dinámicas. Además, STream3R es inherentemente compatible con infraestructuras de entrenamiento estilo LLM, permitiendo un preentrenamiento y ajuste fino eficiente a gran escala para diversas tareas 3D posteriores. Nuestros resultados subrayan el potencial de los modelos Transformer causales para la percepción 3D en línea, allanando el camino para la comprensión 3D en tiempo real en entornos de flujo continuo. Más detalles pueden encontrarse en nuestra página del proyecto: https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates
pointmap prediction as a decoder-only Transformer problem. Existing
state-of-the-art methods for multi-view reconstruction either depend on
expensive global optimization or rely on simplistic memory mechanisms that
scale poorly with sequence length. In contrast, STream3R introduces an
streaming framework that processes image sequences efficiently using causal
attention, inspired by advances in modern language modeling. By learning
geometric priors from large-scale 3D datasets, STream3R generalizes well to
diverse and challenging scenarios, including dynamic scenes where traditional
methods often fail. Extensive experiments show that our method consistently
outperforms prior work across both static and dynamic scene benchmarks.
Moreover, STream3R is inherently compatible with LLM-style training
infrastructure, enabling efficient large-scale pretraining and fine-tuning for
various downstream 3D tasks. Our results underscore the potential of causal
Transformer models for online 3D perception, paving the way for real-time 3D
understanding in streaming environments. More details can be found in our
project page: https://nirvanalan.github.io/projects/stream3r.