4D-LRM: Modelo de Reconstrucción Espacio-Temporal a Gran Escala Desde y Hacia Cualquier Vista en Cualquier Momento
4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
June 23, 2025
Autores: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI
Resumen
¿Podemos escalar el preentrenamiento 4D para aprender representaciones espacio-temporales generales que reconstruyan un objeto a partir de unas pocas vistas en algunos momentos a cualquier vista en cualquier momento? Proporcionamos una respuesta afirmativa con 4D-LRM, el primer modelo de reconstrucción 4D a gran escala que toma entradas de vistas y marcas de tiempo no restringidas y renderiza combinaciones arbitrarias de vistas y tiempos novedosos. A diferencia de enfoques 4D previos, como los basados en optimización, geometría o generativos, que luchan con la eficiencia, la generalización o la fidelidad, 4D-LRM aprende una representación espacio-temporal unificada y predice directamente primitivas gaussianas 4D por píxel a partir de tokens de imágenes posicionadas a lo largo del tiempo, permitiendo una renderización rápida y de alta calidad, en principio, a una tasa de fotogramas infinita. Nuestros resultados demuestran que escalar el preentrenamiento espacio-temporal permite una reconstrucción 4D precisa y eficiente. Mostramos que 4D-LRM generaliza a objetos novedosos, interpola a lo largo del tiempo y maneja configuraciones de cámaras diversas. Reconstruye secuencias de 24 fotogramas en un solo paso hacia adelante en menos de 1.5 segundos en una sola GPU A100.
English
Can we scale 4D pretraining to learn general space-time representations that
reconstruct an object from a few views at some times to any view at any time?
We provide an affirmative answer with 4D-LRM, the first large-scale 4D
reconstruction model that takes input from unconstrained views and timestamps
and renders arbitrary novel view-time combinations. Unlike prior 4D approaches,
e.g., optimization-based, geometry-based, or generative, that struggle with
efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time
representation and directly predicts per-pixel 4D Gaussian primitives from
posed image tokens across time, enabling fast, high-quality rendering at, in
principle, infinite frame rate. Our results demonstrate that scaling
spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We
show that 4D-LRM generalizes to novel objects, interpolates across time, and
handles diverse camera setups. It reconstructs 24-frame sequences in one
forward pass with less than 1.5 seconds on a single A100 GPU.