L4GM: Groot 4D Gaussisch Reconstructiemodel
L4GM: Large 4D Gaussian Reconstruction Model
June 14, 2024
Auteurs: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI
Samenvatting
We presenteren L4GM, het eerste 4D Large Reconstruction Model dat geanimeerde objecten genereert vanuit een single-view video-input — in een enkele feed-forward pass die slechts een seconde duurt. De sleutel tot ons succes is een nieuwe dataset van multiview video's die zorgvuldig geselecteerde, gerenderde geanimeerde objecten uit Objaverse bevat. Deze dataset toont 44K diverse objecten met 110K animaties gerenderd in 48 gezichtspunten, wat resulteert in 12M video's met in totaal 300M frames. We houden L4GM eenvoudig voor schaalbaarheid en bouwen direct voort op LGM, een voorgetraind 3D Large Reconstruction Model dat 3D Gaussische ellipsoïden genereert vanuit multiview beeldinput. L4GM produceert een per-frame 3D Gaussian Splatting-representatie van videoframes die met een lage fps zijn bemonsterd, en upsamplet vervolgens de representatie naar een hogere fps om temporele vloeiendheid te bereiken. We voegen temporele self-attention lagen toe aan de basis-LGM om het consistentie over tijd te laten leren, en gebruiken een per-timestep multiview rendering loss om het model te trainen. De representatie wordt naar een hogere framerate geüpsampled door een interpolatiemodel te trainen dat tussenliggende 3D Gaussische representaties produceert. We demonstreren dat L4GM, dat alleen op synthetische data is getraind, uitstekend generaliseert naar in-the-wild video's, en hoogwaardige geanimeerde 3D-assets produceert.
English
We present L4GM, the first 4D Large Reconstruction Model that produces
animated objects from a single-view video input -- in a single feed-forward
pass that takes only a second. Key to our success is a novel dataset of
multiview videos containing curated, rendered animated objects from Objaverse.
This dataset depicts 44K diverse objects with 110K animations rendered in 48
viewpoints, resulting in 12M videos with a total of 300M frames. We keep our
L4GM simple for scalability and build directly on top of LGM, a pretrained 3D
Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview
image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from
video frames sampled at a low fps and then upsamples the representation to a
higher fps to achieve temporal smoothness. We add temporal self-attention
layers to the base LGM to help it learn consistency across time, and utilize a
per-timestep multiview rendering loss to train the model. The representation is
upsampled to a higher framerate by training an interpolation model which
produces intermediate 3D Gaussian representations. We showcase that L4GM that
is only trained on synthetic data generalizes extremely well on in-the-wild
videos, producing high quality animated 3D assets.