STream3R : Reconstruction séquentielle 3D évolutive avec transformeur causal
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
August 14, 2025
papers.authors: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI
papers.abstract
Nous présentons STream3R, une nouvelle approche de reconstruction 3D qui reformule la prédiction de cartes de points comme un problème de Transformer à décodeur uniquement. Les méthodes actuelles de pointe pour la reconstruction multi-vues dépendent soit d'une optimisation globale coûteuse, soit de mécanismes de mémoire simplistes qui évoluent mal avec la longueur des séquences. En revanche, STream3R introduit un cadre de traitement en flux qui traite efficacement les séquences d'images en utilisant une attention causale, inspirée par les avancées récentes en modélisation du langage. En apprenant des préconnaissances géométriques à partir de vastes ensembles de données 3D, STream3R généralise bien à des scénarios divers et complexes, y compris des scènes dynamiques où les méthodes traditionnelles échouent souvent. Des expériences approfondies montrent que notre méthode surpasse systématiquement les travaux antérieurs sur des benchmarks de scènes statiques et dynamiques. De plus, STream3R est intrinsèquement compatible avec l'infrastructure d'entraînement de type LLM, permettant un pré-entraînement et un ajustement fin efficaces à grande échelle pour diverses tâches 3D en aval. Nos résultats soulignent le potentiel des modèles Transformer causaux pour la perception 3D en temps réel, ouvrant la voie à une compréhension 3D en flux continu. Plus de détails sont disponibles sur notre page de projet : https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates
pointmap prediction as a decoder-only Transformer problem. Existing
state-of-the-art methods for multi-view reconstruction either depend on
expensive global optimization or rely on simplistic memory mechanisms that
scale poorly with sequence length. In contrast, STream3R introduces an
streaming framework that processes image sequences efficiently using causal
attention, inspired by advances in modern language modeling. By learning
geometric priors from large-scale 3D datasets, STream3R generalizes well to
diverse and challenging scenarios, including dynamic scenes where traditional
methods often fail. Extensive experiments show that our method consistently
outperforms prior work across both static and dynamic scene benchmarks.
Moreover, STream3R is inherently compatible with LLM-style training
infrastructure, enabling efficient large-scale pretraining and fine-tuning for
various downstream 3D tasks. Our results underscore the potential of causal
Transformer models for online 3D perception, paving the way for real-time 3D
understanding in streaming environments. More details can be found in our
project page: https://nirvanalan.github.io/projects/stream3r.