TTT3R : Reconstruction 3D comme entraînement au moment du test
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
papers.authors: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
papers.abstract
Les réseaux de neurones récurrents modernes sont devenus une architecture compétitive pour la reconstruction 3D grâce à leur complexité temporelle linéaire. Cependant, leurs performances se dégradent considérablement lorsqu'ils sont appliqués au-delà de la longueur de contexte d'entraînement, révélant une généralisation limitée en termes de longueur. Dans ce travail, nous revisitons les modèles de base de reconstruction 3D sous l'angle de l'apprentissage au moment du test, en reformulant leur conception comme un problème d'apprentissage en ligne. En nous appuyant sur cette perspective, nous exploitons la confiance d'alignement entre l'état de mémoire et les observations entrantes pour dériver un taux d'apprentissage en forme fermée pour les mises à jour de la mémoire, afin d'équilibrer la rétention des informations historiques et l'adaptation aux nouvelles observations. Cette intervention sans entraînement, appelée TTT3R, améliore considérablement la généralisation en termes de longueur, obtenant une amélioration de 2 fois dans l'estimation de la pose globale par rapport aux méthodes de référence, tout en fonctionnant à 20 images par seconde avec seulement 6 Go de mémoire GPU pour traiter des milliers d'images. Le code est disponible sur https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R