ChatPaper.aiChatPaper

WinT3R: Оконная потоковая реконструкция с пулом камерных токенов

WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

September 5, 2025
Авторы: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI

Аннотация

Мы представляем WinT3R, модель прямого распространения для реконструкции, способную выполнять онлайн-предсказание точных поз камер и создавать высококачественные карты точек. Предыдущие методы сталкиваются с компромиссом между качеством реконструкции и производительностью в реальном времени. Чтобы решить эту проблему, мы сначала вводим механизм скользящего окна, который обеспечивает достаточный обмен информацией между кадрами в пределах окна, тем самым улучшая качество геометрических предсказаний без значительных вычислительных затрат. Кроме того, мы используем компактное представление камер и поддерживаем глобальный пул токенов камер, что повышает надежность оценки поз камер без ущерба для эффективности. Эти решения позволяют WinT3R достичь передовых результатов с точки зрения качества онлайн-реконструкции, оценки поз камер и скорости реконструкции, что подтверждается обширными экспериментами на различных наборах данных. Код и модель доступны по адресу https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online prediction of precise camera poses and high-quality point maps. Previous methods suffer from a trade-off between reconstruction quality and real-time performance. To address this, we first introduce a sliding window mechanism that ensures sufficient information exchange among frames within the window, thereby improving the quality of geometric predictions without large computation. In addition, we leverage a compact representation of cameras and maintain a global camera token pool, which enhances the reliability of camera pose estimation without sacrificing efficiency. These designs enable WinT3R to achieve state-of-the-art performance in terms of online reconstruction quality, camera pose estimation, and reconstruction speed, as validated by extensive experiments on diverse datasets. Code and model are publicly available at https://github.com/LiZizun/WinT3R.
PDF52September 8, 2025