STream3R: Масштабируемая последовательная 3D-реконструкция с использованием каузального трансформера
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer
August 14, 2025
Авторы: Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
cs.AI
Аннотация
Мы представляем STream3R — новый подход к 3D-реконструкции, который переформулирует задачу предсказания карты точек как проблему, решаемую исключительно декодером на основе Transformer. Существующие передовые методы для многовидовой реконструкции либо зависят от дорогостоящей глобальной оптимизации, либо полагаются на упрощенные механизмы памяти, которые плохо масштабируются с увеличением длины последовательности. В отличие от них, STream3R предлагает потоковую архитектуру, которая эффективно обрабатывает последовательности изображений с использованием причинного внимания, вдохновленного достижениями в современных моделях языкового моделирования. Обучаясь на геометрических априорных данных из крупномасштабных 3D-наборов, STream3R хорошо обобщается на разнообразные и сложные сценарии, включая динамические сцены, где традиционные методы часто терпят неудачу. Многочисленные эксперименты показывают, что наш метод стабильно превосходит предыдущие работы как на статических, так и на динамических бенчмарках. Более того, STream3R изначально совместим с инфраструктурой обучения в стиле LLM, что позволяет эффективно проводить крупномасштабное предварительное обучение и тонкую настройку для различных задач 3D. Наши результаты подчеркивают потенциал причинных моделей Transformer для онлайн-3D-восприятия, прокладывая путь к реальному времени понимания 3D в потоковых средах. Дополнительные детали можно найти на странице проекта: https://nirvanalan.github.io/projects/stream3r.
English
We present STream3R, a novel approach to 3D reconstruction that reformulates
pointmap prediction as a decoder-only Transformer problem. Existing
state-of-the-art methods for multi-view reconstruction either depend on
expensive global optimization or rely on simplistic memory mechanisms that
scale poorly with sequence length. In contrast, STream3R introduces an
streaming framework that processes image sequences efficiently using causal
attention, inspired by advances in modern language modeling. By learning
geometric priors from large-scale 3D datasets, STream3R generalizes well to
diverse and challenging scenarios, including dynamic scenes where traditional
methods often fail. Extensive experiments show that our method consistently
outperforms prior work across both static and dynamic scene benchmarks.
Moreover, STream3R is inherently compatible with LLM-style training
infrastructure, enabling efficient large-scale pretraining and fine-tuning for
various downstream 3D tasks. Our results underscore the potential of causal
Transformer models for online 3D perception, paving the way for real-time 3D
understanding in streaming environments. More details can be found in our
project page: https://nirvanalan.github.io/projects/stream3r.