Richt je Gaussians: Tekst-naar-4D met Dynamische 3D Gaussians en Samengestelde Diffusiemodellen
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
Auteurs: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
Samenvatting
Tekstgeleide diffusiemodellen hebben een revolutie teweeggebracht in beeld- en videogeneratie en zijn ook succesvol gebruikt voor optimalisatiegebaseerde 3D-objectsynthese. Hier richten we ons in plaats daarvan op de onderbelichte tekst-naar-4D-instelling en synthetiseren we dynamische, geanimeerde 3D-objecten met behulp van score-distillatiemethoden met een extra tijdsdimensie. In vergelijking met eerder werk volgen we een nieuwe compositiegebaseerde generatiebenadering en combineren we tekst-naar-beeld, tekst-naar-video en 3D-bewuste multiview-diffusiemodellen om feedback te geven tijdens 4D-objectoptimalisatie, waardoor tegelijkertijd temporele consistentie, hoogwaardig visueel uiterlijk en realistische geometrie worden afgedwongen. Onze methode, genaamd Align Your Gaussians (AYG), maakt gebruik van dynamische 3D Gaussian Splatting met vervormingsvelden als 4D-representatie. Cruciaal voor AYG is een nieuwe methode om de verdeling van de bewegende 3D-gaussiaanse verdelingen te regulariseren en daarmee de optimalisatie te stabiliseren en beweging te induceren. We stellen ook een mechanisme voor bewegingversterking voor, evenals een nieuw autoregressief syntheschema om meerdere 4D-sequenties te genereren en te combineren voor langere generatie. Deze technieken stellen ons in staat om levendige dynamische scènes te synthetiseren, kwalitatief en kwantitatief beter te presteren dan eerder werk en state-of-the-art tekst-naar-4D-prestaties te bereiken. Door de gaussiaanse 4D-representatie kunnen verschillende 4D-animaties naadloos worden gecombineerd, zoals we demonstreren. AYG opent veelbelovende mogelijkheden voor animatie, simulatie en digitale contentcreatie, evenals synthetische datageneratie.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.