4D-LRM: Großes Raum-Zeit-Rekonstruktionsmodell von und zu jeder Ansicht zu jeder Zeit
4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
June 23, 2025
Autoren: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan
cs.AI
Zusammenfassung
Können wir 4D-Pretraining skalieren, um allgemeine Raum-Zeit-Darstellungen zu erlernen, die ein Objekt aus wenigen Ansichten zu bestimmten Zeitpunkten in jede Ansicht zu jedem Zeitpunkt rekonstruieren? Wir liefern eine bejahende Antwort mit 4D-LRM, dem ersten groß angelegten 4D-Rekonstruktionsmodell, das Eingaben aus unbegrenzten Ansichten und Zeitstempeln verarbeitet und beliebige neue Ansicht-Zeit-Kombinationen rendert. Im Gegensatz zu früheren 4D-Ansätzen, wie optimierungsbasierten, geometriebasierten oder generativen Methoden, die mit Effizienz, Generalisierung oder Treue zu kämpfen haben, lernt 4D-LRM eine einheitliche Raum-Zeit-Darstellung und sagt direkt 4D-Gauß-Primitive pro Pixel aus gerichteten Bild-Token über die Zeit voraus, was ein schnelles, hochwertiges Rendering mit im Prinzip unendlicher Bildrate ermöglicht. Unsere Ergebnisse zeigen, dass die Skalierung von raumzeitlichem Pretraining eine präzise und effiziente 4D-Rekonstruktion ermöglicht. Wir demonstrieren, dass 4D-LRM auf neue Objekte generalisiert, über die Zeit interpoliert und diverse Kameraeinstellungen handhabt. Es rekonstruiert 24-Bildsequenzen in einem Vorwärtsdurchlauf in weniger als 1,5 Sekunden auf einer einzelnen A100-GPU.
English
Can we scale 4D pretraining to learn general space-time representations that
reconstruct an object from a few views at some times to any view at any time?
We provide an affirmative answer with 4D-LRM, the first large-scale 4D
reconstruction model that takes input from unconstrained views and timestamps
and renders arbitrary novel view-time combinations. Unlike prior 4D approaches,
e.g., optimization-based, geometry-based, or generative, that struggle with
efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time
representation and directly predicts per-pixel 4D Gaussian primitives from
posed image tokens across time, enabling fast, high-quality rendering at, in
principle, infinite frame rate. Our results demonstrate that scaling
spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We
show that 4D-LRM generalizes to novel objects, interpolates across time, and
handles diverse camera setups. It reconstructs 24-frame sequences in one
forward pass with less than 1.5 seconds on a single A100 GPU.