TTT3R: 3D-reconstructie als testtijdstraining
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
Auteurs: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Samenvatting
Moderne Recurrente Neurale Netwerken zijn een competitieve architectuur geworden voor 3D-reconstructie vanwege hun lineaire tijdscomplexiteit. Hun prestaties nemen echter aanzienlijk af wanneer ze worden toegepast buiten de contextlengte van de training, wat een beperkte lengtegeneralizatie aan het licht brengt. In dit werk herzien we de fundamenten van 3D-reconstructiemodellen vanuit een Test-Time Training-perspectief, waarbij we hun ontwerpen beschouwen als een online leerprobleem. Op basis van dit perspectief benutten we de uitlijningszekerheid tussen de geheugenstatus en binnenkomende observaties om een gesloten leercurve af te leiden voor geheugenupdates, om een balans te vinden tussen het behouden van historische informatie en het aanpassen aan nieuwe observaties. Deze trainingsvrije interventie, genaamd TTT3R, verbetert de lengtegeneralizatie aanzienlijk en behaalt een 2-voudige verbetering in globale pose-estimatie ten opzichte van de basislijnen, terwijl het opereert met 20 FPS en slechts 6 GB GPU-geheugen om duizenden afbeeldingen te verwerken. Code beschikbaar op https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R