4Real: Hacia la Generación Fotorrealista de Escenas 4D mediante Modelos de Difusión de Video
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models
June 11, 2024
Autores: Heng Yu, Chaoyang Wang, Peiye Zhuang, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Laszlo A Jeni, Sergey Tulyakov, Hsin-Ying Lee
cs.AI
Resumen
Los métodos existentes para la generación de escenas dinámicas dependen principalmente de la destilación de conocimiento a partir de modelos generativos 3D preentrenados, que suelen ajustarse finamente en conjuntos de datos sintéticos de objetos. Como resultado, las escenas generadas suelen estar centradas en objetos y carecen de fotorrealismo. Para abordar estas limitaciones, presentamos una nueva pipeline diseñada para la generación fotorrealista de escenas 4D a partir de texto, eliminando la dependencia de modelos generativos multivista y, en su lugar, aprovechando completamente modelos generativos de video entrenados en diversos conjuntos de datos del mundo real. Nuestro método comienza generando un video de referencia utilizando el modelo de generación de video. Luego, aprendemos la representación 3D canónica del video utilizando un video de tiempo congelado, generado cuidadosamente a partir del video de referencia. Para manejar las inconsistencias en el video de tiempo congelado, aprendemos conjuntamente una deformación por fotograma para modelar estas imperfecciones. Posteriormente, aprendemos la deformación temporal basada en la representación canónica para capturar las interacciones dinámicas en el video de referencia. La pipeline facilita la generación de escenas dinámicas con un fotorrealismo mejorado e integridad estructural, visibles desde múltiples perspectivas, estableciendo así un nuevo estándar en la generación de escenas 4D.
English
Existing dynamic scene generation methods mostly rely on distilling knowledge
from pre-trained 3D generative models, which are typically fine-tuned on
synthetic object datasets. As a result, the generated scenes are often
object-centric and lack photorealism. To address these limitations, we
introduce a novel pipeline designed for photorealistic text-to-4D scene
generation, discarding the dependency on multi-view generative models and
instead fully utilizing video generative models trained on diverse real-world
datasets. Our method begins by generating a reference video using the video
generation model. We then learn the canonical 3D representation of the video
using a freeze-time video, delicately generated from the reference video. To
handle inconsistencies in the freeze-time video, we jointly learn a per-frame
deformation to model these imperfections. We then learn the temporal
deformation based on the canonical representation to capture dynamic
interactions in the reference video. The pipeline facilitates the generation of
dynamic scenes with enhanced photorealism and structural integrity, viewable
from multiple perspectives, thereby setting a new standard in 4D scene
generation.Summary
AI-Generated Summary