ChatPaper.aiChatPaper

WinT3R: Window-Gebaseerde Streaming Reconstructie met Camera Token Pool

WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

September 5, 2025
Auteurs: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He
cs.AI

Samenvatting

We presenteren WinT3R, een feed-forward reconstructiemodel dat in staat is tot online voorspelling van nauwkeurige cameraposities en hoogwaardige puntenkaarten. Eerdere methoden kampen met een afweging tussen reconstructiekwaliteit en real-time prestaties. Om dit aan te pakken, introduceren we eerst een sliding window-mechanisme dat voldoende informatie-uitwisseling tussen frames binnen het venster garandeert, waardoor de kwaliteit van geometrische voorspellingen wordt verbeterd zonder grote rekenkracht. Daarnaast maken we gebruik van een compacte representatie van camera's en behouden we een globaal cameratokenpool, wat de betrouwbaarheid van camerapositieschatting verhoogt zonder de efficiëntie op te offeren. Deze ontwerpen stellen WinT3R in staat om state-of-the-art prestaties te behalen op het gebied van online reconstructiekwaliteit, camerapositieschatting en reconstructiesnelheid, zoals bevestigd door uitgebreide experimenten op diverse datasets. Code en model zijn publiekelijk beschikbaar op https://github.com/LiZizun/WinT3R.
English
We present WinT3R, a feed-forward reconstruction model capable of online prediction of precise camera poses and high-quality point maps. Previous methods suffer from a trade-off between reconstruction quality and real-time performance. To address this, we first introduce a sliding window mechanism that ensures sufficient information exchange among frames within the window, thereby improving the quality of geometric predictions without large computation. In addition, we leverage a compact representation of cameras and maintain a global camera token pool, which enhances the reliability of camera pose estimation without sacrificing efficiency. These designs enable WinT3R to achieve state-of-the-art performance in terms of online reconstruction quality, camera pose estimation, and reconstruction speed, as validated by extensive experiments on diverse datasets. Code and model are publicly available at https://github.com/LiZizun/WinT3R.
PDF72September 8, 2025