WinT3R: Reconstrução Baseada em Janelas com Pool de Tokens de Câmera para Streaming
WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
September 5, 2025
Autores: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI
Resumo
Apresentamos o WinT3R, um modelo de reconstrução feed-forward capaz de prever online poses de câmera precisas e mapas de pontos de alta qualidade. Métodos anteriores sofrem com uma troca entre qualidade de reconstrução e desempenho em tempo real. Para resolver isso, primeiro introduzimos um mecanismo de janela deslizante que garante troca suficiente de informações entre os quadros dentro da janela, melhorando assim a qualidade das previsões geométricas sem grande custo computacional. Além disso, utilizamos uma representação compacta de câmeras e mantemos um pool global de tokens de câmera, o que aumenta a confiabilidade da estimativa de pose da câmera sem sacrificar a eficiência. Esses projetos permitem que o WinT3R alcance desempenho de ponta em termos de qualidade de reconstrução online, estimativa de pose da câmera e velocidade de reconstrução, conforme validado por extensos experimentos em diversos conjuntos de dados. O código e o modelo estão disponíveis publicamente em https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online
prediction of precise camera poses and high-quality point maps. Previous
methods suffer from a trade-off between reconstruction quality and real-time
performance. To address this, we first introduce a sliding window mechanism
that ensures sufficient information exchange among frames within the window,
thereby improving the quality of geometric predictions without large
computation. In addition, we leverage a compact representation of cameras and
maintain a global camera token pool, which enhances the reliability of camera
pose estimation without sacrificing efficiency. These designs enable WinT3R to
achieve state-of-the-art performance in terms of online reconstruction quality,
camera pose estimation, and reconstruction speed, as validated by extensive
experiments on diverse datasets. Code and model are publicly available at
https://github.com/LiZizun/WinT3R.