ChatPaper.aiChatPaper

WinT3R: Reconstrução Baseada em Janelas com Pool de Tokens de Câmera para Streaming

WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

September 5, 2025
Autores: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI

Resumo

Apresentamos o WinT3R, um modelo de reconstrução feed-forward capaz de prever online poses de câmera precisas e mapas de pontos de alta qualidade. Métodos anteriores sofrem com uma troca entre qualidade de reconstrução e desempenho em tempo real. Para resolver isso, primeiro introduzimos um mecanismo de janela deslizante que garante troca suficiente de informações entre os quadros dentro da janela, melhorando assim a qualidade das previsões geométricas sem grande custo computacional. Além disso, utilizamos uma representação compacta de câmeras e mantemos um pool global de tokens de câmera, o que aumenta a confiabilidade da estimativa de pose da câmera sem sacrificar a eficiência. Esses projetos permitem que o WinT3R alcance desempenho de ponta em termos de qualidade de reconstrução online, estimativa de pose da câmera e velocidade de reconstrução, conforme validado por extensos experimentos em diversos conjuntos de dados. O código e o modelo estão disponíveis publicamente em https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online prediction of precise camera poses and high-quality point maps. Previous methods suffer from a trade-off between reconstruction quality and real-time performance. To address this, we first introduce a sliding window mechanism that ensures sufficient information exchange among frames within the window, thereby improving the quality of geometric predictions without large computation. In addition, we leverage a compact representation of cameras and maintain a global camera token pool, which enhances the reliability of camera pose estimation without sacrificing efficiency. These designs enable WinT3R to achieve state-of-the-art performance in terms of online reconstruction quality, camera pose estimation, and reconstruction speed, as validated by extensive experiments on diverse datasets. Code and model are publicly available at https://github.com/LiZizun/WinT3R.
PDF52September 8, 2025