L4GM: Модель крупномасштабной реконструкции Гаусса в 4D
L4GM: Large 4D Gaussian Reconstruction Model
June 14, 2024
Авторы: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
cs.AI
Аннотация
Мы представляем L4GM, первую модель крупного восстановления в 4D, которая создает анимированные объекты из видео с одним видом -- за один проход прямого распространения, который занимает всего лишь одну секунду. Ключом к нашему успеху стал новый набор данных мультивидео, содержащий отобранные, отрендеренные анимированные объекты из Objaverse. Этот набор данных изображает 44 тыс. разнообразных объектов с 110 тыс. анимаций, отрендеренных в 48 точках зрения, что приводит к 12 млн видео с общим числом 300 млн кадров. Мы делаем нашу модель L4GM простой для масштабируемости и строим ее непосредственно на основе LGM, предварительно обученной модели крупного восстановления в 3D, которая выводит 3D гауссовы эллипсоиды из мультивидео входных изображений. L4GM выводит представление 3D гауссовского сплетения на каждый кадр из видеокадров, отобранных с низким fps, а затем увеличивает разрешение представления до более высокого fps для достижения временной плавности. Мы добавляем слои временного самовнимания к базовой модели LGM, чтобы помочь ей учиться согласованности во времени, и используем потери мультивидовой рендеринга на каждом временном шаге для обучения модели. Представление увеличивается до более высокой частоты кадров путем обучения модели интерполяции, которая создает промежуточные 3D гауссовские представления. Мы демонстрируем, что L4GM, обученная только на синтетических данных, обобщается очень хорошо на видео "в дикой природе", создавая высококачественные анимированные 3D ресурсы.
English
We present L4GM, the first 4D Large Reconstruction Model that produces
animated objects from a single-view video input -- in a single feed-forward
pass that takes only a second. Key to our success is a novel dataset of
multiview videos containing curated, rendered animated objects from Objaverse.
This dataset depicts 44K diverse objects with 110K animations rendered in 48
viewpoints, resulting in 12M videos with a total of 300M frames. We keep our
L4GM simple for scalability and build directly on top of LGM, a pretrained 3D
Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview
image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from
video frames sampled at a low fps and then upsamples the representation to a
higher fps to achieve temporal smoothness. We add temporal self-attention
layers to the base LGM to help it learn consistency across time, and utilize a
per-timestep multiview rendering loss to train the model. The representation is
upsampled to a higher framerate by training an interpolation model which
produces intermediate 3D Gaussian representations. We showcase that L4GM that
is only trained on synthetic data generalizes extremely well on in-the-wild
videos, producing high quality animated 3D assets.Summary
AI-Generated Summary