WinT3R: Reconstrucción en Streaming Basada en Ventanas con Agrupación de Tokens de Cámara
WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
September 5, 2025
Autores: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI
Resumen
Presentamos WinT3R, un modelo de reconstrucción de avance capaz de predecir en tiempo real poses precisas de cámara y mapas de puntos de alta calidad. Los métodos anteriores enfrentan un compromiso entre la calidad de la reconstrucción y el rendimiento en tiempo real. Para abordar esto, primero introducimos un mecanismo de ventana deslizante que garantiza un intercambio suficiente de información entre los fotogramas dentro de la ventana, mejorando así la calidad de las predicciones geométricas sin un gran costo computacional. Además, aprovechamos una representación compacta de las cámaras y mantenemos un grupo global de tokens de cámara, lo que mejora la confiabilidad de la estimación de la pose de la cámara sin sacrificar la eficiencia. Estos diseños permiten que WinT3R alcance un rendimiento de vanguardia en términos de calidad de reconstrucción en tiempo real, estimación de la pose de la cámara y velocidad de reconstrucción, como lo validan extensos experimentos en diversos conjuntos de datos. El código y el modelo están disponibles públicamente en https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online
prediction of precise camera poses and high-quality point maps. Previous
methods suffer from a trade-off between reconstruction quality and real-time
performance. To address this, we first introduce a sliding window mechanism
that ensures sufficient information exchange among frames within the window,
thereby improving the quality of geometric predictions without large
computation. In addition, we leverage a compact representation of cameras and
maintain a global camera token pool, which enhances the reliability of camera
pose estimation without sacrificing efficiency. These designs enable WinT3R to
achieve state-of-the-art performance in terms of online reconstruction quality,
camera pose estimation, and reconstruction speed, as validated by extensive
experiments on diverse datasets. Code and model are publicly available at
https://github.com/LiZizun/WinT3R.