4Real: Hacia la Generación Fotorrealista de Escenas 4D mediante Modelos de Difusión de Video

Resumen

Los métodos existentes para la generación de escenas dinámicas dependen principalmente de la destilación de conocimiento a partir de modelos generativos 3D preentrenados, que suelen ajustarse finamente en conjuntos de datos sintéticos de objetos. Como resultado, las escenas generadas suelen estar centradas en objetos y carecen de fotorrealismo. Para abordar estas limitaciones, presentamos una nueva pipeline diseñada para la generación fotorrealista de escenas 4D a partir de texto, eliminando la dependencia de modelos generativos multivista y, en su lugar, aprovechando completamente modelos generativos de video entrenados en diversos conjuntos de datos del mundo real. Nuestro método comienza generando un video de referencia utilizando el modelo de generación de video. Luego, aprendemos la representación 3D canónica del video utilizando un video de tiempo congelado, generado cuidadosamente a partir del video de referencia. Para manejar las inconsistencias en el video de tiempo congelado, aprendemos conjuntamente una deformación por fotograma para modelar estas imperfecciones. Posteriormente, aprendemos la deformación temporal basada en la representación canónica para capturar las interacciones dinámicas en el video de referencia. La pipeline facilita la generación de escenas dinámicas con un fotorrealismo mejorado e integridad estructural, visibles desde múltiples perspectivas, estableciendo así un nuevo estándar en la generación de escenas 4D.

English

Existing dynamic scene generation methods mostly rely on distilling knowledge from pre-trained 3D generative models, which are typically fine-tuned on synthetic object datasets. As a result, the generated scenes are often object-centric and lack photorealism. To address these limitations, we introduce a novel pipeline designed for photorealistic text-to-4D scene generation, discarding the dependency on multi-view generative models and instead fully utilizing video generative models trained on diverse real-world datasets. Our method begins by generating a reference video using the video generation model. We then learn the canonical 3D representation of the video using a freeze-time video, delicately generated from the reference video. To handle inconsistencies in the freeze-time video, we jointly learn a per-frame deformation to model these imperfections. We then learn the temporal deformation based on the canonical representation to capture dynamic interactions in the reference video. The pipeline facilitates the generation of dynamic scenes with enhanced photorealism and structural integrity, viewable from multiple perspectives, thereby setting a new standard in 4D scene generation.

4Real: Hacia la Generación Fotorrealista de Escenas 4D mediante Modelos de Difusión de Video

4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models

Resumen

Support