TTT3R: Ricostruzione 3D come Addestramento al Momento del Test
TTT3R: 3D Reconstruction as Test-Time Training
September 30, 2025
Autori: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Abstract
Le moderne Reti Neurali Ricorrenti sono diventate un'architettura competitiva per la ricostruzione 3D grazie alla loro complessità lineare nel tempo. Tuttavia, le loro prestazioni si degradano significativamente quando applicate oltre la lunghezza del contesto di addestramento, rivelando una limitata generalizzazione in termini di lunghezza. In questo lavoro, riprendiamo i modelli di base per la ricostruzione 3D da una prospettiva di Addestramento al Tempo di Test, inquadrando i loro progetti come un problema di apprendimento online. Basandoci su questa prospettiva, sfruttiamo la confidenza di allineamento tra lo stato della memoria e le osservazioni in arrivo per derivare un tasso di apprendimento in forma chiusa per gli aggiornamenti della memoria, bilanciando tra la conservazione delle informazioni storiche e l'adattamento alle nuove osservazioni. Questo intervento privo di addestramento, denominato TTT3R, migliora sostanzialmente la generalizzazione in termini di lunghezza, ottenendo un miglioramento di 2 volte nella stima della posa globale rispetto ai baseline, operando a 20 FPS con soli 6 GB di memoria GPU per elaborare migliaia di immagini. Il codice è disponibile su https://rover-xingyu.github.io/TTT3R.
English
Modern Recurrent Neural Networks have become a competitive architecture for
3D reconstruction due to their linear-time complexity. However, their
performance degrades significantly when applied beyond the training context
length, revealing limited length generalization. In this work, we revisit the
3D reconstruction foundation models from a Test-Time Training perspective,
framing their designs as an online learning problem. Building on this
perspective, we leverage the alignment confidence between the memory state and
incoming observations to derive a closed-form learning rate for memory updates,
to balance between retaining historical information and adapting to new
observations. This training-free intervention, termed TTT3R, substantially
improves length generalization, achieving a 2times improvement in global
pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU
memory to process thousands of images. Code available in
https://rover-xingyu.github.io/TTT3R