WinT3R : Reconstruction en flux basée sur des fenêtres avec un pool de tokens de caméra
WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
September 5, 2025
papers.authors: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI
papers.abstract
Nous présentons WinT3R, un modèle de reconstruction feed-forward capable de prédire en temps réel des poses de caméra précises et des cartes de points de haute qualité. Les méthodes précédentes souffrent d'un compromis entre la qualité de la reconstruction et les performances en temps réel. Pour résoudre ce problème, nous introduisons d'abord un mécanisme de fenêtre glissante qui garantit un échange d'informations suffisant entre les images au sein de la fenêtre, améliorant ainsi la qualité des prédictions géométriques sans nécessiter de calculs importants. De plus, nous exploitons une représentation compacte des caméras et maintenons un pool global de tokens de caméra, ce qui améliore la fiabilité de l'estimation des poses de caméra sans sacrifier l'efficacité. Ces conceptions permettent à WinT3R d'atteindre des performances de pointe en termes de qualité de reconstruction en temps réel, d'estimation des poses de caméra et de vitesse de reconstruction, comme le confirment des expériences approfondies sur divers ensembles de données. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online
prediction of precise camera poses and high-quality point maps. Previous
methods suffer from a trade-off between reconstruction quality and real-time
performance. To address this, we first introduce a sliding window mechanism
that ensures sufficient information exchange among frames within the window,
thereby improving the quality of geometric predictions without large
computation. In addition, we leverage a compact representation of cameras and
maintain a global camera token pool, which enhances the reliability of camera
pose estimation without sacrificing efficiency. These designs enable WinT3R to
achieve state-of-the-art performance in terms of online reconstruction quality,
camera pose estimation, and reconstruction speed, as validated by extensive
experiments on diverse datasets. Code and model are publicly available at
https://github.com/LiZizun/WinT3R.