WinT3R: Fensterbasierte Streaming-Rekonstruktion mit Kamera-Token-Pool
WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
September 5, 2025
papers.authors: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI
papers.abstract
Wir präsentieren WinT3R, ein Feedforward-Rekonstruktionsmodell, das in der Lage ist, präzise Kameraposen und hochwertige Punktkarten online vorherzusagen. Bisherige Methoden leiden unter einem Kompromiss zwischen Rekonstruktionsqualität und Echtzeitleistung. Um dies zu adressieren, führen wir zunächst einen Sliding-Window-Mechanismus ein, der einen ausreichenden Informationsaustausch zwischen den Frames innerhalb des Fensters gewährleistet und dadurch die Qualität der geometrischen Vorhersagen ohne großen Rechenaufwand verbessert. Zusätzlich nutzen wir eine kompakte Darstellung der Kameras und pflegen einen globalen Kameratoken-Pool, was die Zuverlässigkeit der Kameraposenschätzung erhöht, ohne die Effizienz zu beeinträchtigen. Diese Konzepte ermöglichen es WinT3R, Spitzenleistungen in Bezug auf die Online-Rekonstruktionsqualität, Kameraposenschätzung und Rekonstruktionsgeschwindigkeit zu erzielen, wie durch umfangreiche Experimente auf verschiedenen Datensätzen bestätigt wird. Code und Modell sind öffentlich unter https://github.com/LiZizun/WinT3R verfügbar.
English
We present WinT3R, a feed-forward reconstruction model capable of online
prediction of precise camera poses and high-quality point maps. Previous
methods suffer from a trade-off between reconstruction quality and real-time
performance. To address this, we first introduce a sliding window mechanism
that ensures sufficient information exchange among frames within the window,
thereby improving the quality of geometric predictions without large
computation. In addition, we leverage a compact representation of cameras and
maintain a global camera token pool, which enhances the reliability of camera
pose estimation without sacrificing efficiency. These designs enable WinT3R to
achieve state-of-the-art performance in terms of online reconstruction quality,
camera pose estimation, and reconstruction speed, as validated by extensive
experiments on diverse datasets. Code and model are publicly available at
https://github.com/LiZizun/WinT3R.