ChatPaper.aiChatPaper

4D-LRM : Modèle de reconstruction spatio-temporelle à grande échelle depuis et vers n'importe quelle vue à n'importe quel moment

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

June 23, 2025
Auteurs: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI

Résumé

Pouvons-nous mettre à l'échelle un pré-entraînement 4D pour apprendre des représentations spatio-temporelles générales capables de reconstruire un objet à partir de quelques vues à certains moments, pour n'importe quelle vue à n'importe quel moment ? Nous apportons une réponse affirmative avec 4D-LRM, le premier modèle de reconstruction 4D à grande échelle qui prend en entrée des vues et des timestamps non contraints et rend des combinaisons arbitraires de nouvelles vues et temps. Contrairement aux approches 4D précédentes, par exemple basées sur l'optimisation, la géométrie ou la génération, qui peinent avec l'efficacité, la généralisation ou la fidélité, 4D-LRM apprend une représentation spatio-temporelle unifiée et prédit directement des primitives gaussiennes 4D par pixel à partir de tokens d'images posées dans le temps, permettant un rendu rapide et de haute qualité, en principe, à un taux de trame infini. Nos résultats démontrent que la mise à l'échelle du pré-entraînement spatio-temporel permet une reconstruction 4D précise et efficace. Nous montrons que 4D-LRM généralise à de nouveaux objets, interpole dans le temps et gère des configurations de caméra diverses. Il reconstruit des séquences de 24 trames en une seule passe avant en moins de 1,5 seconde sur une seule GPU A100.
English
Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
PDF31June 24, 2025