Alinea tus Gaussianos: Texto-a-4D con Gaussianos 3D Dinámicos y Modelos de Difusión Compuestos

Resumen

Los modelos de difusión guiados por texto han revolucionado la generación de imágenes y videos, y también se han utilizado con éxito para la síntesis de objetos 3D basada en optimización. Aquí, en cambio, nos centramos en el ámbito poco explorado de texto-a-4D y sintetizamos objetos 3D dinámicos y animados utilizando métodos de destilación de puntuación con una dimensión temporal adicional. En comparación con trabajos anteriores, adoptamos un enfoque novedoso basado en generación composicional, y combinamos modelos de difusión de texto-a-imagen, texto-a-video y multivista 3D para proporcionar retroalimentación durante la optimización de objetos 4D, logrando así simultáneamente consistencia temporal, apariencia visual de alta calidad y geometría realista. Nuestro método, llamado Align Your Gaussians (AYG), aprovecha el Splatting de Gaussianas 3D dinámico con campos de deformación como representación 4D. Un aspecto crucial de AYG es un método novedoso para regularizar la distribución de las Gaussianas 3D en movimiento, estabilizando así la optimización e induciendo movimiento. También proponemos un mecanismo de amplificación de movimiento, así como un nuevo esquema de síntesis autorregresiva para generar y combinar múltiples secuencias 4D para generaciones más largas. Estas técnicas nos permiten sintetizar escenas dinámicas vívidas, superar cualitativa y cuantitativamente trabajos anteriores y alcanzar un rendimiento de texto-a-4D de vanguardia. Debido a la representación 4D basada en Gaussianas, diferentes animaciones 4D pueden combinarse sin problemas, como demostramos. AYG abre nuevas vías prometedoras para la animación, simulación, creación de contenido digital y generación de datos sintéticos.

English

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.

Alinea tus Gaussianos: Texto-a-4D con Gaussianos 3D Dinámicos y Modelos de Difusión Compuestos

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Resumen

Support