ChatPaper.aiChatPaper

STream3R: Ricostruzione Sequenziale 3D Scalabile con Trasformatore Causale

STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

August 14, 2025
Autori: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI

Abstract

Presentiamo STream3R, un approccio innovativo alla ricostruzione 3D che riformula la previsione delle mappe di punti come un problema di Transformer esclusivamente decoder. I metodi all'avanguardia esistenti per la ricostruzione multi-vista dipendono o da costose ottimizzazioni globali o si basano su meccanismi di memoria semplicistici che non scalano bene con la lunghezza della sequenza. Al contrario, STream3R introduce un framework di streaming che elabora sequenze di immagini in modo efficiente utilizzando l'attenzione causale, ispirandosi ai progressi nel moderno modeling linguistico. Apprendendo prior geometriche da dataset 3D su larga scala, STream3R generalizza bene a scenari diversi e impegnativi, incluse scene dinamiche in cui i metodi tradizionali spesso falliscono. Esperimenti estensivi dimostrano che il nostro metodo supera costantemente i lavori precedenti su benchmark sia di scene statiche che dinamiche. Inoltre, STream3R è intrinsecamente compatibile con l'infrastruttura di addestramento in stile LLM, consentendo un efficiente pre-addestramento su larga scala e un fine-tuning per vari task 3D downstream. I nostri risultati sottolineano il potenziale dei modelli Transformer causali per la percezione 3D online, aprendo la strada a una comprensione 3D in tempo reale in ambienti di streaming. Ulteriori dettagli sono disponibili sulla nostra pagina del progetto: https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates pointmap prediction as a decoder-only Transformer problem. Existing state-of-the-art methods for multi-view reconstruction either depend on expensive global optimization or rely on simplistic memory mechanisms that scale poorly with sequence length. In contrast, STream3R introduces an streaming framework that processes image sequences efficiently using causal attention, inspired by advances in modern language modeling. By learning geometric priors from large-scale 3D datasets, STream3R generalizes well to diverse and challenging scenarios, including dynamic scenes where traditional methods often fail. Extensive experiments show that our method consistently outperforms prior work across both static and dynamic scene benchmarks. Moreover, STream3R is inherently compatible with LLM-style training infrastructure, enabling efficient large-scale pretraining and fine-tuning for various downstream 3D tasks. Our results underscore the potential of causal Transformer models for online 3D perception, paving the way for real-time 3D understanding in streaming environments. More details can be found in our project page: https://nirvanalan.github.io/projects/stream3r.
PDF313August 15, 2025