4Real: К фотореалистичной генерации 4D сцен через диффузию видео моделей
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
June 11, 2024
Авторы: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
Аннотация
Существующие методы генерации динамических сцен в основном опираются на извлечение знаний из предварительно обученных 3D генеративных моделей, которые обычно донастраиваются на синтетических наборах данных объектов. В результате сгенерированные сцены часто сосредоточены на объектах и лишены фотореализма. Для преодоления этих ограничений мы представляем новый конвейер, разработанный для фотореалистичной генерации сцен 4D из текста, отказываясь от зависимости от многозрительных генеративных моделей и вместо этого полностью используя видео генеративные модели, обученные на разнообразных реальных наборах данных. Наш метод начинается с генерации ссылочного видео с использованием модели генерации видео. Затем мы изучаем каноническое 3D представление видео с помощью замороженного во времени видео, тонко сгенерированного из ссылочного видео. Для обработки несоответствий в замороженном видео мы совместно изучаем деформацию на каждом кадре для моделирования этих несовершенств. Затем мы изучаем временную деформацию на основе канонического представления для захвата динамических взаимодействий в ссылочном видео. Конвейер облегчает генерацию динамических сцен с улучшенным фотореализмом и структурной целостностью, просматриваемых с различных перспектив, тем самым устанавливая новый стандарт в генерации сцен 4D.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge
from pre-trained 3D generative models, which are typically fine-tuned on
synthetic object datasets. As a result, the generated scenes are often
object-centric and lack photorealism. To address these limitations, we
introduce a novel pipeline designed for photorealistic text-to-4D scene
generation, discarding the dependency on multi-view generative models and
instead fully utilizing video generative models trained on diverse real-world
datasets. Our method begins by generating a reference video using the video
generation model. We then learn the canonical 3D representation of the video
using a freeze-time video, delicately generated from the reference video. To
handle inconsistencies in the freeze-time video, we jointly learn a per-frame
deformation to model these imperfections. We then learn the temporal
deformation based on the canonical representation to capture dynamic
interactions in the reference video. The pipeline facilitates the generation of
dynamic scenes with enhanced photorealism and structural integrity, viewable
from multiple perspectives, thereby setting a new standard in 4D scene
generation.Summary
AI-Generated Summary