ChatPaper.aiChatPaper

STream3R: 인과적 트랜스포머를 활용한 확장 가능한 순차적 3D 재구성

STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

August 14, 2025
저자: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI

초록

우리는 포인트맵 예측을 디코더 전용 트랜스포머 문제로 재구성하는 새로운 3D 재구성 접근법인 STream3R를 소개한다. 기존의 최신 다중 뷰 재구성 방법들은 비용이 많이 드는 전역 최적화에 의존하거나 시퀀스 길이에 따라 확장성이 떨어지는 단순한 메모리 메커니즘을 사용한다. 이와 대조적으로, STream3R는 현대 언어 모델링의 발전에서 영감을 받은 인과적 어텐션을 사용하여 이미지 시퀀스를 효율적으로 처리하는 스트리밍 프레임워크를 도입한다. 대규모 3D 데이터셋으로부터 기하학적 사전 지식을 학습함으로써, STream3R는 전통적인 방법들이 종종 실패하는 동적 장면을 포함한 다양한 도전적인 시나리오에서도 잘 일반화된다. 광범위한 실험을 통해 우리의 방법이 정적 및 동적 장면 벤치마크에서 모두 기존 작업을 꾸준히 능가함을 보여준다. 더욱이, STream3R는 LLM 스타일의 훈련 인프라와 본질적으로 호환되어 다양한 하위 3D 작업을 위한 효율적인 대규모 사전 훈련 및 미세 조정을 가능하게 한다. 우리의 결과는 온라인 3D 인식을 위한 인과적 트랜스포머 모델의 잠재력을 강조하며, 스트리밍 환경에서 실시간 3D 이해를 위한 길을 열어준다. 더 자세한 내용은 프로젝트 페이지에서 확인할 수 있다: https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates pointmap prediction as a decoder-only Transformer problem. Existing state-of-the-art methods for multi-view reconstruction either depend on expensive global optimization or rely on simplistic memory mechanisms that scale poorly with sequence length. In contrast, STream3R introduces an streaming framework that processes image sequences efficiently using causal attention, inspired by advances in modern language modeling. By learning geometric priors from large-scale 3D datasets, STream3R generalizes well to diverse and challenging scenarios, including dynamic scenes where traditional methods often fail. Extensive experiments show that our method consistently outperforms prior work across both static and dynamic scene benchmarks. Moreover, STream3R is inherently compatible with LLM-style training infrastructure, enabling efficient large-scale pretraining and fine-tuning for various downstream 3D tasks. Our results underscore the potential of causal Transformer models for online 3D perception, paving the way for real-time 3D understanding in streaming environments. More details can be found in our project page: https://nirvanalan.github.io/projects/stream3r.
PDF213August 15, 2025