tttLRM : Entraînement au moment du test pour la reconstruction 3D en contexte long et autoregressif
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
February 23, 2026
papers.authors: Chen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu
cs.AI
papers.abstract
Nous proposons tttLRM, un nouveau modèle de reconstruction 3D à grande échelle qui exploite une couche d'apprentissage au moment du test (TTT) pour permettre une reconstruction 3D autoregressive à contexte long avec une complexité computationnelle linéaire, augmentant ainsi les capacités du modèle. Notre cadre compresse efficacement de multiples observations d'images dans les poids rapides de la couche TTT, formant une représentation 3D implicite dans l'espace latent qui peut être décodée en différents formats explicites, tels que les *Gaussian Splats* (GS) pour des applications en aval. La variante à apprentissage en ligne de notre modèle prend en charge la reconstruction et le raffinement progressifs de la scène 3D à partir d'observations en flux continu. Nous démontrons qu'un pré-entraînement sur des tâches de synthèse de nouvelles vues se transfère efficacement à la modélisation 3D explicite, améliorant la qualité de reconstruction et accélérant la convergence. Des expériences approfondies montrent que notre méthode obtient des performances supérieures en reconstruction feedforward de Gaussiennes 3D par rapport aux approches de l'état de l'art, que ce soit pour des objets ou des scènes.
English
We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.