L4GM: Modello di Ricostruzione Gaussiana 4D su Grande Scala
L4GM: Large 4D Gaussian Reconstruction Model
June 14, 2024
Autori: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI
Abstract
Presentiamo L4GM, il primo Large Reconstruction Model 4D in grado di generare oggetti animati a partire da un video a singola vista — in un unico passaggio in avanti che richiede solo un secondo. La chiave del nostro successo risiede in un nuovo dataset di video multivista contenenti oggetti animati curati e renderizzati da Objaverse. Questo dataset rappresenta 44K oggetti diversi con 110K animazioni renderizzate da 48 punti di vista, risultando in 12M video per un totale di 300M fotogrammi. Manteniamo L4GM semplice per garantire scalabilità e lo costruiamo direttamente su LGM, un Large Reconstruction Model 3D preaddestrato che produce ellissoidi gaussiani 3D da input di immagini multivista. L4GM genera una rappresentazione 3D Gaussian Splatting per fotogramma da frame video campionati a basso fps, per poi aumentare la frequenza di campionamento della rappresentazione a un fps più elevato per ottenere una fluidità temporale. Aggiungiamo strati di self-attention temporale al modello base LGM per aiutarlo a apprendere la coerenza nel tempo e utilizziamo una funzione di perdita di rendering multivista per timestep per addestrare il modello. La rappresentazione viene aumentata a una frequenza di fotogrammi più elevata addestrando un modello di interpolazione che produce rappresentazioni gaussiane 3D intermedie. Dimostriamo che L4GM, addestrato esclusivamente su dati sintetici, generalizza estremamente bene su video reali, producendo risorse 3D animate di alta qualità.
English
We present L4GM, the first 4D Large Reconstruction Model that produces
animated objects from a single-view video input -- in a single feed-forward
pass that takes only a second. Key to our success is a novel dataset of
multiview videos containing curated, rendered animated objects from Objaverse.
This dataset depicts 44K diverse objects with 110K animations rendered in 48
viewpoints, resulting in 12M videos with a total of 300M frames. We keep our
L4GM simple for scalability and build directly on top of LGM, a pretrained 3D
Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview
image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from
video frames sampled at a low fps and then upsamples the representation to a
higher fps to achieve temporal smoothness. We add temporal self-attention
layers to the base LGM to help it learn consistency across time, and utilize a
per-timestep multiview rendering loss to train the model. The representation is
upsampled to a higher framerate by training an interpolation model which
produces intermediate 3D Gaussian representations. We showcase that L4GM that
is only trained on synthetic data generalizes extremely well on in-the-wild
videos, producing high quality animated 3D assets.