TTT3R : Reconstruction 3D comme entraînement au moment du test

papers.abstract

Les réseaux de neurones récurrents modernes sont devenus une architecture compétitive pour la reconstruction 3D grâce à leur complexité temporelle linéaire. Cependant, leurs performances se dégradent considérablement lorsqu'ils sont appliqués au-delà de la longueur de contexte d'entraînement, révélant une généralisation limitée en termes de longueur. Dans ce travail, nous revisitons les modèles de base de reconstruction 3D sous l'angle de l'apprentissage au moment du test, en reformulant leur conception comme un problème d'apprentissage en ligne. En nous appuyant sur cette perspective, nous exploitons la confiance d'alignement entre l'état de mémoire et les observations entrantes pour dériver un taux d'apprentissage en forme fermée pour les mises à jour de la mémoire, afin d'équilibrer la rétention des informations historiques et l'adaptation aux nouvelles observations. Cette intervention sans entraînement, appelée TTT3R, améliore considérablement la généralisation en termes de longueur, obtenant une amélioration de 2 fois dans l'estimation de la pose globale par rapport aux méthodes de référence, tout en fonctionnant à 20 images par seconde avec seulement 6 Go de mémoire GPU pour traiter des milliers d'images. Le code est disponible sur https://rover-xingyu.github.io/TTT3R.

English

Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a 2times improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R

TTT3R : Reconstruction 3D comme entraînement au moment du test

TTT3R: 3D Reconstruction as Test-Time Training

papers.abstract

Support