ChatPaper.aiChatPaper

4D-LRM: Modello di Ricostruzione Spazio-Temporale su Grande Scala da e verso Qualsiasi Visuale in Qualsiasi Momento

4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

June 23, 2025
Autori: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI

Abstract

Possiamo scalare il pretraining 4D per apprendere rappresentazioni spazio-temporali generali che ricostruiscano un oggetto da poche viste in determinati momenti a qualsiasi vista in qualsiasi momento? Forniamo una risposta affermativa con 4D-LRM, il primo modello di ricostruzione 4D su larga scala che accetta input da viste e timestamp non vincolati e renderizza combinazioni arbitrarie di nuove viste e tempi. A differenza degli approcci 4D precedenti, ad esempio basati su ottimizzazione, geometria o generativi, che lottano con efficienza, generalizzazione o fedeltà, 4D-LRM apprende una rappresentazione spazio-temporale unificata e prevede direttamente primitive gaussiane 4D per pixel a partire da token di immagini posizionate nel tempo, consentendo un rendering rapido e di alta qualità, in linea di principio, a una frequenza di fotogrammi infinita. I nostri risultati dimostrano che la scalabilità del pretraining spaziotemporale abilita una ricostruzione 4D accurata ed efficiente. Mostriamo che 4D-LRM generalizza a nuovi oggetti, interpola nel tempo e gestisce configurazioni di telecamere diverse. Ricostruisce sequenze di 24 fotogrammi in un unico passaggio in avanti in meno di 1,5 secondi su una singola GPU A100.
English
Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
PDF61June 24, 2025