tttLRM: Treinamento em Tempo de Teste para Reconstrução 3D Autoregressiva e de Contexto Longo
tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
February 23, 2026
Autores: Chen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu
cs.AI
Resumo
Propomos o tttLRM, um novo e inovador modelo de reconstrução 3D de grande escala que aproveita uma camada de Treinamento em Tempo de Teste (TTT) para permitir a reconstrução 3D autoregressiva de longo contexto com complexidade computacional linear, escalando ainda mais a capacidade do modelo. Nossa estrutura comprime eficientemente múltiplas observações de imagem nos pesos rápidos da camada TTT, formando uma representação 3D implícita no espaço latente que pode ser decodificada em vários formatos explícitos, como *Gaussian Splats* (GS) para aplicações a jusante. A variante de aprendizado online do nosso modelo suporta reconstrução e refinamento 3D progressivos a partir de observações em fluxo contínuo. Demonstramos que o pré-treinamento em tarefas de síntese de novas vistas transfere-se eficazmente para a modelagem 3D explícita, resultando em uma qualidade de reconstrução melhorada e convergência mais rápida. Experimentos extensivos mostram que nosso método alcança um desempenho superior na reconstrução feedforward de Gaussianas 3D em comparação com as abordagens state-of-the-art, tanto para objetos quanto para cenas.
English
We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.