4D-LRM: Modelo de Reconstrução Espaço-Temporal em Grande Escala a Partir de e Para Qualquer Visão em Qualquer Momento

Resumo

Podemos escalar o pré-treinamento 4D para aprender representações espaço-temporais gerais que reconstroem um objeto a partir de algumas visualizações em determinados momentos para qualquer visualização em qualquer momento? Apresentamos uma resposta afirmativa com o 4D-LRM, o primeiro modelo de reconstrução 4D em larga escala que recebe entradas de visualizações e timestamps não restritos e renderiza combinações arbitrárias de novas visualizações e tempos. Diferente de abordagens 4D anteriores, como as baseadas em otimização, geometria ou geração, que enfrentam desafios de eficiência, generalização ou fidelidade, o 4D-LRM aprende uma representação espaço-temporal unificada e prevê diretamente primitivas Gaussianas 4D por pixel a partir de tokens de imagens posicionadas ao longo do tempo, permitindo renderização rápida e de alta qualidade, em princípio, com taxa de quadros infinita. Nossos resultados demonstram que a escalabilidade do pré-treinamento espaço-temporal possibilita uma reconstrução 4D precisa e eficiente. Mostramos que o 4D-LRM generaliza para novos objetos, interpola ao longo do tempo e lida com diversas configurações de câmera. Ele reconstrói sequências de 24 quadros em uma única passada direta em menos de 1,5 segundos em uma única GPU A100.

English

Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.

4D-LRM: Modelo de Reconstrução Espaço-Temporal em Grande Escala a Partir de e Para Qualquer Visão em Qualquer Momento

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

Resumo

Support