WinT3R: Ricostruzione in Streaming Basata su Finestre con Pool di Token della Fotocamera
WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
September 5, 2025
Autori: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI
Abstract
Presentiamo WinT3R, un modello di ricostruzione feed-forward in grado di prevedere online pose precise della fotocamera e mappe di punti di alta qualità. I metodi precedenti soffrono di un compromesso tra qualità della ricostruzione e prestazioni in tempo reale. Per affrontare questo problema, introduciamo innanzitutto un meccanismo a finestra scorrevole che garantisce un sufficiente scambio di informazioni tra i fotogrammi all'interno della finestra, migliorando così la qualità delle previsioni geometriche senza un elevato costo computazionale. Inoltre, sfruttiamo una rappresentazione compatta delle fotocamere e manteniamo un pool globale di token delle fotocamere, il che aumenta l'affidabilità della stima della posa della fotocamera senza sacrificare l'efficienza. Questi design consentono a WinT3R di raggiungere prestazioni all'avanguardia in termini di qualità della ricostruzione online, stima della posa della fotocamera e velocità di ricostruzione, come dimostrato da ampi esperimenti su diversi dataset. Il codice e il modello sono disponibili pubblicamente all'indirizzo https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online
prediction of precise camera poses and high-quality point maps. Previous
methods suffer from a trade-off between reconstruction quality and real-time
performance. To address this, we first introduce a sliding window mechanism
that ensures sufficient information exchange among frames within the window,
thereby improving the quality of geometric predictions without large
computation. In addition, we leverage a compact representation of cameras and
maintain a global camera token pool, which enhances the reliability of camera
pose estimation without sacrificing efficiency. These designs enable WinT3R to
achieve state-of-the-art performance in terms of online reconstruction quality,
camera pose estimation, and reconstruction speed, as validated by extensive
experiments on diverse datasets. Code and model are publicly available at
https://github.com/LiZizun/WinT3R.