ChatPaper.aiChatPaper

TTT3R: 3D-Rekonstruktion als Testzeit-Training

TTT3R: 3D Reconstruction as Test-Time Training

September 30, 2025
papers.authors: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI

papers.abstract

Moderne Rekurrente Neuronale Netze haben sich aufgrund ihrer linearen Zeitkomplexität zu einer wettbewerbsfähigen Architektur für die 3D-Rekonstruktion entwickelt. Ihre Leistung verschlechtert sich jedoch erheblich, wenn sie über die Trainingskontextlänge hinaus angewendet werden, was eine begrenzte Längengeneralisierung offenbart. In dieser Arbeit betrachten wir die Grundlagenmodelle der 3D-Rekonstruktion aus der Perspektive des Test-Time Trainings und formulieren ihre Designs als ein Online-Lernproblem. Aufbauend auf dieser Perspektive nutzen wir die Ausrichtungskonfidenz zwischen dem Speicherzustand und eingehenden Beobachtungen, um eine geschlossene Lernrate für Speicheraktualisierungen abzuleiten, um zwischen der Beibehaltung historischer Informationen und der Anpassung an neue Beobachtungen abzuwägen. Diese trainingsfreie Intervention, genannt TTT3R, verbessert die Längengeneralisierung erheblich und erreicht eine 2-fache Verbesserung in der globalen Pose-Schätzung gegenüber den Baselines, während sie mit nur 6 GB GPU-Speicher Tausende von Bildern bei 20 FPS verarbeitet. Code verfügbar unter https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a 2times improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R
PDF41October 1, 2025