TTT3R: 3D-Rekonstruktion als Testzeit-Training
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
papers.authors: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
papers.abstract
Moderne Rekurrente Neuronale Netze haben sich aufgrund ihrer linearen Zeitkomplexität zu einer wettbewerbsfähigen Architektur für die 3D-Rekonstruktion entwickelt. Ihre Leistung verschlechtert sich jedoch erheblich, wenn sie über die Trainingskontextlänge hinaus angewendet werden, was eine begrenzte Längengeneralisierung offenbart. In dieser Arbeit betrachten wir die Grundlagenmodelle der 3D-Rekonstruktion aus der Perspektive des Test-Time Trainings und formulieren ihre Designs als ein Online-Lernproblem. Aufbauend auf dieser Perspektive nutzen wir die Ausrichtungskonfidenz zwischen dem Speicherzustand und eingehenden Beobachtungen, um eine geschlossene Lernrate für Speicheraktualisierungen abzuleiten, um zwischen der Beibehaltung historischer Informationen und der Anpassung an neue Beobachtungen abzuwägen. Diese trainingsfreie Intervention, genannt TTT3R, verbessert die Längengeneralisierung erheblich und erreicht eine 2-fache Verbesserung in der globalen Pose-Schätzung gegenüber den Baselines, während sie mit nur 6 GB GPU-Speicher Tausende von Bildern bei 20 FPS verarbeitet. Code verfügbar unter https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R