4D-LRM: Modelo de Reconstrução Espaço-Temporal em Grande Escala a Partir de e Para Qualquer Visão em Qualquer Momento
4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
June 23, 2025
Autores: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI
Resumo
Podemos escalar o pré-treinamento 4D para aprender representações espaço-temporais gerais que reconstroem um objeto a partir de algumas visualizações em determinados momentos para qualquer visualização em qualquer momento? Apresentamos uma resposta afirmativa com o 4D-LRM, o primeiro modelo de reconstrução 4D em larga escala que recebe entradas de visualizações e timestamps não restritos e renderiza combinações arbitrárias de novas visualizações e tempos. Diferente de abordagens 4D anteriores, como as baseadas em otimização, geometria ou geração, que enfrentam desafios de eficiência, generalização ou fidelidade, o 4D-LRM aprende uma representação espaço-temporal unificada e prevê diretamente primitivas Gaussianas 4D por pixel a partir de tokens de imagens posicionadas ao longo do tempo, permitindo renderização rápida e de alta qualidade, em princípio, com taxa de quadros infinita. Nossos resultados demonstram que a escalabilidade do pré-treinamento espaço-temporal possibilita uma reconstrução 4D precisa e eficiente. Mostramos que o 4D-LRM generaliza para novos objetos, interpola ao longo do tempo e lida com diversas configurações de câmera. Ele reconstrói sequências de 24 quadros em uma única passada direta em menos de 1,5 segundos em uma única GPU A100.
English
Can we scale 4D pretraining to learn general space-time representations that
reconstruct an object from a few views at some times to any view at any time?
We provide an affirmative answer with 4D-LRM, the first large-scale 4D
reconstruction model that takes input from unconstrained views and timestamps
and renders arbitrary novel view-time combinations. Unlike prior 4D approaches,
e.g., optimization-based, geometry-based, or generative, that struggle with
efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time
representation and directly predicts per-pixel 4D Gaussian primitives from
posed image tokens across time, enabling fast, high-quality rendering at, in
principle, infinite frame rate. Our results demonstrate that scaling
spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We
show that 4D-LRM generalizes to novel objects, interpolates across time, and
handles diverse camera setups. It reconstructs 24-frame sequences in one
forward pass with less than 1.5 seconds on a single A100 GPU.