L4GM: 대규모 4D 가우시안 재구성 모델
L4GM: Large 4D Gaussian Reconstruction Model
June 14, 2024
저자: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI
초록
단일 뷰 비디오 입력으로부터 애니메이션 객체를 생성하는 최초의 4D 대형 재구성 모델인 L4GM을 소개합니다. 이 모델은 단일 순방향 패스로 단 1초 만에 결과를 생성합니다. 우리의 성공 핵심은 Objaverse에서 선별된 렌더링된 애니메이션 객체를 포함한 다중 뷰 비디오로 구성된 새로운 데이터셋입니다. 이 데이터셋은 48개의 시점에서 렌더링된 110K개의 애니메이션과 함께 44K개의 다양한 객체를 묘사하며, 총 300M 프레임으로 구성된 12M개의 비디오를 포함합니다. 우리는 확장성을 위해 L4GM을 단순하게 유지하고, 다중 뷰 이미지 입력으로부터 3D 가우시안 타원체를 출력하는 사전 훈련된 3D 대형 재구성 모델인 LGM을 기반으로 구축합니다. L4GM은 낮은 fps로 샘플링된 비디오 프레임에서 프레임별 3D 가우시안 스플래팅 표현을 출력한 후, 이를 더 높은 fps로 업샘플링하여 시간적 부드러움을 달성합니다. 우리는 기본 LGM에 시간적 자기 주의 층을 추가하여 시간에 걸친 일관성을 학습하도록 돕고, 모델을 훈련시키기 위해 시간 단위별 다중 뷰 렌더링 손실을 활용합니다. 이 표현은 중간 3D 가우시안 표현을 생성하는 보간 모델을 훈련하여 더 높은 프레임 속도로 업샘플링됩니다. 우리는 합성 데이터만으로 훈련된 L4GM이 실제 비디오에서도 매우 잘 일반화되어 고품질의 애니메이션 3D 자산을 생성함을 보여줍니다.
English
We present L4GM, the first 4D Large Reconstruction Model that produces
animated objects from a single-view video input -- in a single feed-forward
pass that takes only a second. Key to our success is a novel dataset of
multiview videos containing curated, rendered animated objects from Objaverse.
This dataset depicts 44K diverse objects with 110K animations rendered in 48
viewpoints, resulting in 12M videos with a total of 300M frames. We keep our
L4GM simple for scalability and build directly on top of LGM, a pretrained 3D
Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview
image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from
video frames sampled at a low fps and then upsamples the representation to a
higher fps to achieve temporal smoothness. We add temporal self-attention
layers to the base LGM to help it learn consistency across time, and utilize a
per-timestep multiview rendering loss to train the model. The representation is
upsampled to a higher framerate by training an interpolation model which
produces intermediate 3D Gaussian representations. We showcase that L4GM that
is only trained on synthetic data generalizes extremely well on in-the-wild
videos, producing high quality animated 3D assets.Summary
AI-Generated Summary