ChatPaper.aiChatPaper

L4GM : Modèle de Reconstruction à Grande Échelle en 4D avec Gaussiennes

L4GM: Large 4D Gaussian Reconstruction Model

June 14, 2024
Auteurs: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI

Résumé

Nous présentons L4GM, le premier modèle de reconstruction 4D à grande échelle capable de générer des objets animés à partir d'une vidéo monoscopique en une seule passe directe ne prenant qu'une seconde. La clé de notre succès réside dans un nouveau jeu de données de vidéos multivues contenant des objets animés rendus et soigneusement sélectionnés issus d'Objaverse. Ce jeu de données représente 44 000 objets diversifiés avec 110 000 animations rendues sous 48 angles de vue, résultant en 12 millions de vidéos totalisant 300 millions d'images. Nous avons conçu L4GM pour qu'il reste simple et évolutif, en le construisant directement sur LGM, un modèle de reconstruction 3D à grande échelle pré-entraîné qui génère des ellipsoïdes gaussiens 3D à partir d'images multivues. L4GM produit une représentation par image en 3D Gaussian Splatting à partir de trames vidéo échantillonnées à une fréquence d'images basse, puis suréchantillonne cette représentation à une fréquence plus élevée pour obtenir une fluidité temporelle. Nous ajoutons des couches d'auto-attention temporelle au modèle LGM de base pour l'aider à apprendre la cohérence temporelle, et utilisons une fonction de perte de rendu multivue par pas de temps pour entraîner le modèle. La représentation est suréchantillonnée à une fréquence d'images plus élevée en entraînant un modèle d'interpolation qui produit des représentations gaussiennes 3D intermédiaires. Nous démontrons que L4GM, uniquement entraîné sur des données synthétiques, généralise extrêmement bien sur des vidéos réelles, produisant des actifs 3D animés de haute qualité.
English
We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.

Summary

AI-Generated Summary

PDF131December 6, 2024