tttLRM: Test-Time Training für langkontextige und autoregressive 3D-Rekonstruktion
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
February 23, 2026
papers.authors: Chen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu
cs.AI
papers.abstract
Wir stellen tttLRM vor, ein neuartiges großes 3D-Rekonstruktionsmodell, das eine Test-Time-Training(TTT)-Schicht nutzt, um eine autoregressive 3D-Rekonstruktion mit langem Kontext und linearer rechnerischer Komplexität zu ermöglichen und so die Fähigkeiten des Modells weiter zu skalieren. Unser Framework komprimiert effizient mehrere Bildbeobachtungen in den Fast Weights der TTT-Schicht und bildet so eine implizite 3D-Repräsentation im latenten Raum, die in verschiedene explizite Formate decodiert werden kann, wie z.B. Gaussian Splats (GS) für nachgelagerte Anwendungen. Die Online-Lern-Variante unseres Modells unterstützt progressive 3D-Rekonstruktion und Verfeinerung aus Streaming-Beobachtungen. Wir zeigen, dass Pre-Training auf Novel-View-Synthesis-Aufgaben effektiv auf explizite 3D-Modellierung überträgt, was zu verbesserter Rekonstruktionsqualität und schnellerer Konvergenz führt. Umfangreiche Experimente belegen, dass unsere Methode bei der feedforward-basierten 3D-Gauß-Rekonstruktion eine überlegene Leistung gegenüber state-of-the-art Ansätzen sowohl für Objekte als auch für Szenen erzielt.
English
We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.