TTT3R: Reconstrucción 3D como Entrenamiento en Tiempo de Prueba

Resumen

Las Redes Neuronales Recurrentes modernas se han convertido en una arquitectura competitiva para la reconstrucción 3D debido a su complejidad de tiempo lineal. Sin embargo, su rendimiento se degrada significativamente cuando se aplican más allá de la longitud del contexto de entrenamiento, revelando una generalización limitada en longitud. En este trabajo, revisitamos los modelos fundamentales de reconstrucción 3D desde una perspectiva de Entrenamiento en Tiempo de Prueba (Test-Time Training), enmarcando sus diseños como un problema de aprendizaje en línea. Basándonos en esta perspectiva, aprovechamos la confianza de alineación entre el estado de la memoria y las observaciones entrantes para derivar una tasa de aprendizaje de forma cerrada para las actualizaciones de la memoria, equilibrando entre la retención de información histórica y la adaptación a nuevas observaciones. Esta intervención sin entrenamiento, denominada TTT3R, mejora sustancialmente la generalización en longitud, logrando una mejora de 2 veces en la estimación de pose global en comparación con los métodos base, mientras opera a 20 FPS con solo 6 GB de memoria GPU para procesar miles de imágenes. Código disponible en https://rover-xingyu.github.io/TTT3R.

English

Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a 2times improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R

TTT3R: Reconstrucción 3D como Entrenamiento en Tiempo de Prueba

TTT3R: 3D Reconstruction as Test-Time Training

Resumen

Support