ChatPaper.aiChatPaper

Alignez vos Gaussiennes : Texte-vers-4D avec des Gaussiennes 3D Dynamiques et Modèles de Diffusion Composés

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

December 21, 2023
papers.authors: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI

papers.abstract

Les modèles de diffusion guidés par texte ont révolutionné la génération d'images et de vidéos et ont également été utilisés avec succès pour la synthèse d'objets 3D basée sur l'optimisation. Ici, nous nous concentrons plutôt sur le domaine encore peu exploré du texte-à-4D et synthétisons des objets 3D dynamiques et animés en utilisant des méthodes de distillation de score avec une dimension temporelle supplémentaire. Par rapport aux travaux précédents, nous adoptons une approche novatrice basée sur la génération compositionnelle, et combinons des modèles de diffusion texte-à-image, texte-à-vidéo et multivues conscients de la 3D pour fournir un retour pendant l'optimisation d'objets 4D, assurant ainsi simultanément une cohérence temporelle, une apparence visuelle de haute qualité et une géométrie réaliste. Notre méthode, appelée Align Your Gaussians (AYG), exploite le splatting dynamique de Gaussiennes 3D avec des champs de déformation comme représentation 4D. Un élément crucial d'AYG est une nouvelle méthode pour régulariser la distribution des Gaussiennes 3D en mouvement, stabilisant ainsi l'optimisation et induisant le mouvement. Nous proposons également un mécanisme d'amplification du mouvement ainsi qu'un nouveau schéma de synthèse autorégressif pour générer et combiner plusieurs séquences 4D afin de prolonger la génération. Ces techniques nous permettent de synthétiser des scènes dynamiques vivantes, de surpasser qualitativement et quantitativement les travaux précédents et d'atteindre des performances de pointe en texte-à-4D. Grâce à la représentation 4D par Gaussiennes, différentes animations 4D peuvent être combinées de manière transparente, comme nous le démontrons. AYG ouvre des perspectives prometteuses pour l'animation, la simulation, la création de contenu numérique ainsi que la génération de données synthétiques.
English
Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.
PDF111December 15, 2024