ChatPaper.aiChatPaper

L4GM: Großes 4D-Gaußsches Rekonstruktionsmodell

L4GM: Large 4D Gaussian Reconstruction Model

June 14, 2024
Autoren: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI

Zusammenfassung

Wir präsentieren L4GM, das erste 4D Large Reconstruction Model, das animierte Objekte aus einem Einzelansichtsvideoeingang erzeugt - in einem einzigen Feedforward-Durchlauf, der nur eine Sekunde dauert. Schlüssel zu unserem Erfolg ist ein neuartiger Datensatz von Multiview-Videos, die kuratierte, gerenderte animierte Objekte aus dem Objaverse enthalten. Dieser Datensatz zeigt 44.000 verschiedene Objekte mit 110.000 Animationen, die in 48 Ansichten gerendert wurden, was zu 12 Millionen Videos mit insgesamt 300 Millionen Frames führt. Wir halten unser L4GM einfach für Skalierbarkeit und bauen direkt auf dem LGM auf, einem vortrainierten 3D Large Reconstruction Model, das 3D-Gaußellipsoide aus einem Multiview-Bildeingang ausgibt. L4GM gibt eine pro Frame 3D-Gauß-Splatting-Repräsentation aus den mit niedriger fps abgetasteten Videoframes aus und interpoliert dann die Repräsentation auf eine höhere fps, um zeitliche Glattheit zu erreichen. Wir fügen dem Basis-LGM zeitliche Selbst-Aufmerksamkeitsschichten hinzu, um ihm zu helfen, Konsistenz über die Zeit zu lernen, und nutzen einen pro-Zeitschritt Multiview-Rendering-Verlust, um das Modell zu trainieren. Die Repräsentation wird durch Training eines Interpolationsmodells, das Zwischen-3D-Gauß-Repräsentationen erzeugt, auf eine höhere Bildrate interpoliert. Wir zeigen, dass L4GM, das nur auf synthetischen Daten trainiert ist, sehr gut auf Wildvideos generalisiert und hochwertige animierte 3D-Assets erzeugt.
English
We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.

Summary

AI-Generated Summary

PDF131December 6, 2024