tttLRM: Addestramento al Momento del Test per la Ricostruzione 3D con Contesti Lunghi e Autoregressiva
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
February 23, 2026
Autori: Chen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu
cs.AI
Abstract
Proponiamo tttLRM, un innovativo modello di ricostruzione 3D su larga scala che sfrutta uno strato di addestramento al tempo di test (Test-Time Training, TTT) per abilitare una ricostruzione 3D autoregressiva a contesto lungo con complessità computazionale lineare, scalando ulteriormente le capacità del modello. Il nostro framework comprime efficientemente multiple osservazioni di immagini nei pesi rapidi dello strato TTT, formando una rappresentazione 3D implicita nello spazio latente che può essere decodificata in vari formati espliciti, come gli Splat Gaussiani (GS), per applicazioni a valle. La variante ad apprendimento online del nostro modello supporta una ricostruzione e raffinazione 3D progressive a partire da osservazioni in streaming. Dimostriamo che la pre-addestramento su compiti di sintesi di nuove viste si trasferisce efficacemente alla modellazione 3D esplicita, comportando un miglioramento della qualità della ricostruzione e una convergenza più rapida. Esperimenti estensivi mostrano che il nostro metodo raggiunge prestazioni superiori nella ricostruzione feedforward con Gaussiane 3D rispetto agli approcci allo stato dell'arte, sia su oggetti che su scene.
English
We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.