TTT3R: Reconstrucción 3D como Entrenamiento en Tiempo de Prueba
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
Autores: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Resumen
Las Redes Neuronales Recurrentes modernas se han convertido en una arquitectura competitiva para la reconstrucción 3D debido a su complejidad de tiempo lineal. Sin embargo, su rendimiento se degrada significativamente cuando se aplican más allá de la longitud del contexto de entrenamiento, revelando una generalización limitada en longitud. En este trabajo, revisitamos los modelos fundamentales de reconstrucción 3D desde una perspectiva de Entrenamiento en Tiempo de Prueba (Test-Time Training), enmarcando sus diseños como un problema de aprendizaje en línea. Basándonos en esta perspectiva, aprovechamos la confianza de alineación entre el estado de la memoria y las observaciones entrantes para derivar una tasa de aprendizaje de forma cerrada para las actualizaciones de la memoria, equilibrando entre la retención de información histórica y la adaptación a nuevas observaciones. Esta intervención sin entrenamiento, denominada TTT3R, mejora sustancialmente la generalización en longitud, logrando una mejora de 2 veces en la estimación de pose global en comparación con los métodos base, mientras opera a 20 FPS con solo 6 GB de memoria GPU para procesar miles de imágenes. Código disponible en https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R