tttLRM: Entrenamiento en Tiempo de Prueba para Reconstrucción 3D de Contexto Largo y Autoregresiva

Resumen

Proponemos tttLRM, un novedoso modelo de reconstrucción 3D a gran escala que aprovecha una capa de Entrenamiento en Tiempo de Prueba (TTT) para permitir una reconstrucción 3D autoregresiva de contexto largo con complejidad computacional lineal, escalando así aún más la capacidad del modelo. Nuestro marco comprime eficientemente múltiples observaciones de imágenes en los pesos rápidos de la capa TTT, formando una representación 3D implícita en el espacio latente que puede decodificarse en varios formatos explícitos, como *Gaussian Splats* (GS) para aplicaciones posteriores. La variante de aprendizaje en línea de nuestro modelo admite la reconstrucción y el refinamiento 3D progresivo a partir de observaciones en flujo continuo. Demostramos que el preentrenamiento en tareas de síntesis de nuevas vistas se transfiere eficazmente al modelado 3D explícito, lo que resulta en una mejor calidad de reconstrucción y una convergencia más rápida. Experimentos exhaustivos muestran que nuestro método logra un rendimiento superior en la reconstrucción feedforward de Gaussianos 3D en comparación con los enfoques más avanzados, tanto en objetos como en escenas.

English

We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.

tttLRM: Entrenamiento en Tiempo de Prueba para Reconstrucción 3D de Contexto Largo y Autoregresiva

tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

Resumen

Support