ChatPaper.aiChatPaper

L4GM: Modelo de Reconstrução Gaussiana 4D em Grande Escala

L4GM: Large 4D Gaussian Reconstruction Model

June 14, 2024
Autores: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI

Resumo

Apresentamos o L4GM, o primeiro Modelo de Reconstrução Grande 4D que produz objetos animados a partir de um vídeo de visão única — em uma única passagem feed-forward que leva apenas um segundo. A chave para o nosso sucesso é um novo conjunto de dados de vídeos multivista contendo objetos animados renderizados e curados do Objaverse. Esse conjunto de dados retrata 44K objetos diversos com 110K animações renderizadas em 48 pontos de vista, resultando em 12M de vídeos com um total de 300M de quadros. Mantemos nosso L4GM simples para escalabilidade e o construímos diretamente sobre o LGM, um Modelo de Reconstrução Grande 3D pré-treinado que produz elipsoides 3D Gaussianos a partir de entrada de imagens multivista. O L4GM produz uma representação 3D Gaussian Splatting por quadro a partir de quadros de vídeo amostrados em uma baixa taxa de quadros por segundo (fps) e, em seguida, aumenta a representação para uma taxa de quadros mais alta para alcançar suavidade temporal. Adicionamos camadas de autoatenção temporal ao LGM base para ajudá-lo a aprender consistência ao longo do tempo e utilizamos uma perda de renderização multivista por intervalo de tempo para treinar o modelo. A representação é aumentada para uma taxa de quadros mais alta treinando um modelo de interpolação que produz representações 3D Gaussianas intermediárias. Demonstramos que o L4GM, treinado apenas com dados sintéticos, generaliza extremamente bem em vídeos do mundo real, produzindo ativos 3D animados de alta qualidade.
English
We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.
PDF131December 6, 2024