Richten Sie Ihre Gaußverteilungen aus: Text-zu-4D mit dynamischen 3D-Gaußverteilungen und kombinierten Diffusionsmodellen
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
Autoren: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
Zusammenfassung
Textgesteuerte Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert
und wurden auch erfolgreich für optimierungsbasierte 3D-Objektsynthese eingesetzt.
Hier konzentrieren wir uns stattdessen auf das bisher wenig erforschte Text-zu-4D-Setting
und synthetisieren dynamische, animierte 3D-Objekte mithilfe von Score-Distillation-Methoden
mit einer zusätzlichen zeitlichen Dimension. Im Vergleich zu früheren Arbeiten verfolgen wir einen neuartigen,
kompositionellen generierungsbasierten Ansatz und kombinieren Text-zu-Bild-,
Text-zu-Video- und 3D-bewusste Multiview-Diffusionsmodelle, um während der 4D-Objektoptimierung
Feedback zu liefern, wodurch gleichzeitig zeitliche Konsistenz, hochwertiges visuelles Erscheinungsbild
und realistische Geometrie sichergestellt werden. Unsere Methode, genannt Align Your Gaussians (AYG),
nutzt dynamisches 3D-Gaussian-Splatting mit Deformationsfeldern als 4D-Repräsentation.
Entscheidend für AYG ist eine neuartige Methode zur Regularisierung der Verteilung der beweglichen 3D-Gaussians,
um dadurch die Optimierung zu stabilisieren und Bewegung zu induzieren. Wir schlagen außerdem einen
Bewegungsverstärkungsmechanismus sowie ein neues autoregressives Syntheseschema vor, um mehrere 4D-Sequenzen
für längere Generierung zu erzeugen und zu kombinieren. Diese Techniken ermöglichen es uns, lebendige dynamische
Szenen zu synthetisieren, frühere Arbeiten qualitativ und quantitativ zu übertreffen und state-of-the-art
Text-zu-4D-Leistung zu erreichen. Aufgrund der Gaussian-4D-Repräsentation können verschiedene 4D-Animationen
nahtlos kombiniert werden, wie wir demonstrieren. AYG eröffnet vielversprechende Möglichkeiten für Animation,
Simulation und digitale Inhaltserstellung sowie synthetische Datengenerierung.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.