ChatPaper.aiChatPaper

4D-LRM: Groot ruimte-tijd reconstructiemodel van en naar elk gezichtspunt op elk moment

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

June 23, 2025
Auteurs: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI

Samenvatting

Kunnen we 4D-pre-training opschalen om algemene ruimte-tijd representaties te leren die een object reconstrueren vanuit enkele views op bepaalde tijdstippen naar elke view op elk moment? We geven een bevestigend antwoord met 4D-LRM, het eerste grootschalige 4D-reconstructiemodel dat invoer verwerkt vanuit onbeperkte views en tijdstempels en willekeurige nieuwe view-tijd combinaties weergeeft. In tegenstelling tot eerdere 4D-benaderingen, zoals optimalisatie-gebaseerde, geometrie-gebaseerde of generatieve methoden, die moeite hebben met efficiëntie, generalisatie of nauwkeurigheid, leert 4D-LRM een geïntegreerde ruimte-tijd representatie en voorspelt direct per-pixel 4D Gaussische primitieven vanuit gepositioneerde beeldtokens over tijd, wat snelle, hoogwaardige weergave mogelijk maakt, in principe met een oneindig frame rate. Onze resultaten tonen aan dat het opschalen van spatiotemporele pre-training nauwkeurige en efficiënte 4D-reconstructie mogelijk maakt. We laten zien dat 4D-LRM generaliseert naar nieuwe objecten, interpoleert over tijd en omgaat met diverse camera-opstellingen. Het reconstrueert 24-frame sequenties in één voorwaartse pass in minder dan 1,5 seconden op een enkele A100 GPU.
English
Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
PDF61June 24, 2025