STream3R: Skalierbare sequenzielle 3D-Rekonstruktion mit kausalem Transformer
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
August 14, 2025
papers.authors: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI
papers.abstract
Wir stellen STream3R vor, einen neuartigen Ansatz zur 3D-Rekonstruktion, der die Vorhersage von Punktkarten als ein reines Decoder-Transformer-Problem neu formuliert. Bisherige state-of-the-art Methoden für Multi-View-Rekonstruktion sind entweder von teurer globaler Optimierung abhängig oder verlassen sich auf vereinfachte Speichermechanismen, die schlecht mit der Sequenzlänge skalieren. Im Gegensatz dazu führt STream3R ein Streaming-Framework ein, das Bildsequenzen effizient unter Verwendung von kausaler Aufmerksamkeit verarbeitet, inspiriert durch Fortschritte im modernen Sprachmodellierung. Durch das Lernen geometrischer Priors aus groß angelegten 3D-Datensätzen, generalisiert STream3R gut auf diverse und herausfordernde Szenarien, einschließlich dynamischer Szenen, bei denen traditionelle Methoden oft versagen. Umfangreiche Experimente zeigen, dass unsere Methode durchweg frühere Arbeiten sowohl bei statischen als auch dynamischen Szenen-Benchmarks übertrifft. Darüber hinaus ist STream3R von Natur aus kompatibel mit LLM-ähnlicher Trainingsinfrastruktur, was effizientes groß angelegtes Vortraining und Feinabstimmung für verschiedene nachgelagerte 3D-Aufgaben ermöglicht. Unsere Ergebnisse unterstreichen das Potenzial kausaler Transformer-Modelle für die Online-3D-Wahrnehmung und ebnen den Weg für Echtzeit-3D-Verständnis in Streaming-Umgebungen. Weitere Details finden Sie auf unserer Projektseite: https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates
pointmap prediction as a decoder-only Transformer problem. Existing
state-of-the-art methods for multi-view reconstruction either depend on
expensive global optimization or rely on simplistic memory mechanisms that
scale poorly with sequence length. In contrast, STream3R introduces an
streaming framework that processes image sequences efficiently using causal
attention, inspired by advances in modern language modeling. By learning
geometric priors from large-scale 3D datasets, STream3R generalizes well to
diverse and challenging scenarios, including dynamic scenes where traditional
methods often fail. Extensive experiments show that our method consistently
outperforms prior work across both static and dynamic scene benchmarks.
Moreover, STream3R is inherently compatible with LLM-style training
infrastructure, enabling efficient large-scale pretraining and fine-tuning for
various downstream 3D tasks. Our results underscore the potential of causal
Transformer models for online 3D perception, paving the way for real-time 3D
understanding in streaming environments. More details can be found in our
project page: https://nirvanalan.github.io/projects/stream3r.