TTT3R: Reconstrução 3D como Treinamento em Tempo de Teste
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
Autores: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Resumo
Redes Neurais Recorrentes modernas tornaram-se uma arquitetura competitiva para reconstrução 3D devido à sua complexidade de tempo linear. No entanto, seu desempenho degrada significativamente quando aplicadas além do comprimento de contexto de treinamento, revelando generalização limitada em termos de comprimento. Neste trabalho, revisitamos os modelos fundamentais de reconstrução 3D a partir de uma perspectiva de Treinamento em Tempo de Teste (Test-Time Training), enquadrando seus projetos como um problema de aprendizado online. Com base nessa perspectiva, aproveitamos a confiança de alinhamento entre o estado de memória e as observações recebidas para derivar uma taxa de aprendizado de forma fechada para atualizações de memória, equilibrando a retenção de informações históricas e a adaptação a novas observações. Essa intervenção livre de treinamento, denominada TTT3R, melhora substancialmente a generalização de comprimento, alcançando uma melhoria de 2 vezes na estimativa de pose global em relação às abordagens baselines, enquanto opera a 20 FPS com apenas 6 GB de memória GPU para processar milhares de imagens. Código disponível em https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R