L4GM: Modelo de Reconstrucción Gaussiana 4D a Gran Escala
L4GM: Large 4D Gaussian Reconstruction Model
June 14, 2024
Autores: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI
Resumen
Presentamos L4GM, el primer Modelo de Reconstrucción Grande 4D que genera objetos animados a partir de una entrada de video de una sola vista — en un único paso de avance que toma solo un segundo. Clave para nuestro éxito es un nuevo conjunto de datos de videos multivista que contiene objetos animados renderizados y curados de Objaverse. Este conjunto de datos representa 44K objetos diversos con 110K animaciones renderizadas en 48 puntos de vista, resultando en 12M videos con un total de 300M cuadros. Mantenemos nuestro L4GM simple para escalabilidad y lo construimos directamente sobre LGM, un Modelo de Reconstrucción Grande 3D preentrenado que genera elipsoides de Gaussianas 3D a partir de entradas de imágenes multivista. L4GM produce una representación de Splatting de Gaussianas 3D por cuadro a partir de fotogramas de video muestreados a una baja tasa de fps y luego aumenta la representación a una tasa de fps más alta para lograr suavidad temporal. Añadimos capas de auto-atención temporal al LGM base para ayudarlo a aprender consistencia a lo largo del tiempo, y utilizamos una pérdida de renderizado multivista por paso de tiempo para entrenar el modelo. La representación se aumenta a una tasa de cuadros más alta entrenando un modelo de interpolación que produce representaciones intermedias de Gaussianas 3D. Demostramos que L4GM, entrenado únicamente con datos sintéticos, generaliza extremadamente bien en videos del mundo real, produciendo activos 3D animados de alta calidad.
English
We present L4GM, the first 4D Large Reconstruction Model that produces
animated objects from a single-view video input -- in a single feed-forward
pass that takes only a second. Key to our success is a novel dataset of
multiview videos containing curated, rendered animated objects from Objaverse.
This dataset depicts 44K diverse objects with 110K animations rendered in 48
viewpoints, resulting in 12M videos with a total of 300M frames. We keep our
L4GM simple for scalability and build directly on top of LGM, a pretrained 3D
Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview
image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from
video frames sampled at a low fps and then upsamples the representation to a
higher fps to achieve temporal smoothness. We add temporal self-attention
layers to the base LGM to help it learn consistency across time, and utilize a
per-timestep multiview rendering loss to train the model. The representation is
upsampled to a higher framerate by training an interpolation model which
produces intermediate 3D Gaussian representations. We showcase that L4GM that
is only trained on synthetic data generalizes extremely well on in-the-wild
videos, producing high quality animated 3D assets.Summary
AI-Generated Summary