ChatPaper.aiChatPaper

tttLRM: Обучение во время тестирования для 3D-реконструкции длинных контекстов и авторегрессии

tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

February 23, 2026
Авторы: Chen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu
cs.AI

Аннотация

Мы представляем tttLRM — новую крупномасштабную модель для 3D-реконструкции, которая использует слой обучения во время тестирования (Test-Time Training, TTT) для обеспечения длинноконтекстной авторегрессионной реконструкции с линейной вычислительной сложностью, что дополнительно масштабирует возможности модели. Наша платформа эффективно сжимает множество изображений в быстрые веса TTT-слоя, формируя неявное 3D-представление в латентном пространстве, которое может быть декодировано в различные явные форматы, такие как гауссовы сплаты (Gaussian Splats, GS) для последующих приложений. Онлайн-версия нашей модели поддерживает прогрессивную 3D-реконструкцию и уточнение на основе потоковых наблюдений. Мы демонстрируем, что предварительное обучение на задачах синтеза новых видов успешно переносится на явное 3D-моделирование, приводя к улучшению качества реконструкции и ускоренной сходимости. Многочисленные эксперименты показывают, что наш метод превосходит современные подходы по эффективности прямого восстановления 3D-гауссов как для объектов, так и для сцен.
English
We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.
PDF11February 25, 2026