Alinea tus Gaussianos: Texto-a-4D con Gaussianos 3D Dinámicos y Modelos de Difusión Compuestos
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
Autores: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
Resumen
Los modelos de difusión guiados por texto han revolucionado la generación de imágenes y videos, y también se han utilizado con éxito para la síntesis de objetos 3D basada en optimización. Aquí, en cambio, nos centramos en el ámbito poco explorado de texto-a-4D y sintetizamos objetos 3D dinámicos y animados utilizando métodos de destilación de puntuación con una dimensión temporal adicional. En comparación con trabajos anteriores, adoptamos un enfoque novedoso basado en generación composicional, y combinamos modelos de difusión de texto-a-imagen, texto-a-video y multivista 3D para proporcionar retroalimentación durante la optimización de objetos 4D, logrando así simultáneamente consistencia temporal, apariencia visual de alta calidad y geometría realista. Nuestro método, llamado Align Your Gaussians (AYG), aprovecha el Splatting de Gaussianas 3D dinámico con campos de deformación como representación 4D. Un aspecto crucial de AYG es un método novedoso para regularizar la distribución de las Gaussianas 3D en movimiento, estabilizando así la optimización e induciendo movimiento. También proponemos un mecanismo de amplificación de movimiento, así como un nuevo esquema de síntesis autorregresiva para generar y combinar múltiples secuencias 4D para generaciones más largas. Estas técnicas nos permiten sintetizar escenas dinámicas vívidas, superar cualitativa y cuantitativamente trabajos anteriores y alcanzar un rendimiento de texto-a-4D de vanguardia. Debido a la representación 4D basada en Gaussianas, diferentes animaciones 4D pueden combinarse sin problemas, como demostramos. AYG abre nuevas vías prometedoras para la animación, simulación, creación de contenido digital y generación de datos sintéticos.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.