STream3R: Skalierbare sequenzielle 3D-Rekonstruktion mit kausalem Transformer

Zusammenfassung

Wir stellen STream3R vor, einen neuartigen Ansatz zur 3D-Rekonstruktion, der die Vorhersage von Punktkarten als ein reines Decoder-Transformer-Problem neu formuliert. Bisherige state-of-the-art Methoden für Multi-View-Rekonstruktion sind entweder von teurer globaler Optimierung abhängig oder verlassen sich auf vereinfachte Speichermechanismen, die schlecht mit der Sequenzlänge skalieren. Im Gegensatz dazu führt STream3R ein Streaming-Framework ein, das Bildsequenzen effizient unter Verwendung von kausaler Aufmerksamkeit verarbeitet, inspiriert durch Fortschritte im modernen Sprachmodellierung. Durch das Lernen geometrischer Priors aus groß angelegten 3D-Datensätzen, generalisiert STream3R gut auf diverse und herausfordernde Szenarien, einschließlich dynamischer Szenen, bei denen traditionelle Methoden oft versagen. Umfangreiche Experimente zeigen, dass unsere Methode durchweg frühere Arbeiten sowohl bei statischen als auch dynamischen Szenen-Benchmarks übertrifft. Darüber hinaus ist STream3R von Natur aus kompatibel mit LLM-ähnlicher Trainingsinfrastruktur, was effizientes groß angelegtes Vortraining und Feinabstimmung für verschiedene nachgelagerte 3D-Aufgaben ermöglicht. Unsere Ergebnisse unterstreichen das Potenzial kausaler Transformer-Modelle für die Online-3D-Wahrnehmung und ebnen den Weg für Echtzeit-3D-Verständnis in Streaming-Umgebungen. Weitere Details finden Sie auf unserer Projektseite: https://nirvanalan.github.io/projects/stream3r.

English

We present STream3R, a novel approach to 3D reconstruction that reformulates pointmap prediction as a decoder-only Transformer problem. Existing state-of-the-art methods for multi-view reconstruction either depend on expensive global optimization or rely on simplistic memory mechanisms that scale poorly with sequence length. In contrast, STream3R introduces an streaming framework that processes image sequences efficiently using causal attention, inspired by advances in modern language modeling. By learning geometric priors from large-scale 3D datasets, STream3R generalizes well to diverse and challenging scenarios, including dynamic scenes where traditional methods often fail. Extensive experiments show that our method consistently outperforms prior work across both static and dynamic scene benchmarks. Moreover, STream3R is inherently compatible with LLM-style training infrastructure, enabling efficient large-scale pretraining and fine-tuning for various downstream 3D tasks. Our results underscore the potential of causal Transformer models for online 3D perception, paving the way for real-time 3D understanding in streaming environments. More details can be found in our project page: https://nirvanalan.github.io/projects/stream3r.