Alignez vos Gaussiennes : Texte-vers-4D avec des Gaussiennes 3D Dynamiques et Modèles de Diffusion Composés
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
papers.authors: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
papers.abstract
Les modèles de diffusion guidés par texte ont révolutionné la génération d'images et de vidéos et ont également été utilisés avec succès pour la synthèse d'objets 3D basée sur l'optimisation. Ici, nous nous concentrons plutôt sur le domaine encore peu exploré du texte-à-4D et synthétisons des objets 3D dynamiques et animés en utilisant des méthodes de distillation de score avec une dimension temporelle supplémentaire. Par rapport aux travaux précédents, nous adoptons une approche novatrice basée sur la génération compositionnelle, et combinons des modèles de diffusion texte-à-image, texte-à-vidéo et multivues conscients de la 3D pour fournir un retour pendant l'optimisation d'objets 4D, assurant ainsi simultanément une cohérence temporelle, une apparence visuelle de haute qualité et une géométrie réaliste. Notre méthode, appelée Align Your Gaussians (AYG), exploite le splatting dynamique de Gaussiennes 3D avec des champs de déformation comme représentation 4D. Un élément crucial d'AYG est une nouvelle méthode pour régulariser la distribution des Gaussiennes 3D en mouvement, stabilisant ainsi l'optimisation et induisant le mouvement. Nous proposons également un mécanisme d'amplification du mouvement ainsi qu'un nouveau schéma de synthèse autorégressif pour générer et combiner plusieurs séquences 4D afin de prolonger la génération. Ces techniques nous permettent de synthétiser des scènes dynamiques vivantes, de surpasser qualitativement et quantitativement les travaux précédents et d'atteindre des performances de pointe en texte-à-4D. Grâce à la représentation 4D par Gaussiennes, différentes animations 4D peuvent être combinées de manière transparente, comme nous le démontrons. AYG ouvre des perspectives prometteuses pour l'animation, la simulation, la création de contenu numérique ainsi que la génération de données synthétiques.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.