Richt je Gaussians: Tekst-naar-4D met Dynamische 3D Gaussians en Samengestelde Diffusiemodellen

Samenvatting

Tekstgeleide diffusiemodellen hebben een revolutie teweeggebracht in beeld- en videogeneratie en zijn ook succesvol gebruikt voor optimalisatiegebaseerde 3D-objectsynthese. Hier richten we ons in plaats daarvan op de onderbelichte tekst-naar-4D-instelling en synthetiseren we dynamische, geanimeerde 3D-objecten met behulp van score-distillatiemethoden met een extra tijdsdimensie. In vergelijking met eerder werk volgen we een nieuwe compositiegebaseerde generatiebenadering en combineren we tekst-naar-beeld, tekst-naar-video en 3D-bewuste multiview-diffusiemodellen om feedback te geven tijdens 4D-objectoptimalisatie, waardoor tegelijkertijd temporele consistentie, hoogwaardig visueel uiterlijk en realistische geometrie worden afgedwongen. Onze methode, genaamd Align Your Gaussians (AYG), maakt gebruik van dynamische 3D Gaussian Splatting met vervormingsvelden als 4D-representatie. Cruciaal voor AYG is een nieuwe methode om de verdeling van de bewegende 3D-gaussiaanse verdelingen te regulariseren en daarmee de optimalisatie te stabiliseren en beweging te induceren. We stellen ook een mechanisme voor bewegingversterking voor, evenals een nieuw autoregressief syntheschema om meerdere 4D-sequenties te genereren en te combineren voor langere generatie. Deze technieken stellen ons in staat om levendige dynamische scènes te synthetiseren, kwalitatief en kwantitatief beter te presteren dan eerder werk en state-of-the-art tekst-naar-4D-prestaties te bereiken. Door de gaussiaanse 4D-representatie kunnen verschillende 4D-animaties naadloos worden gecombineerd, zoals we demonstreren. AYG opent veelbelovende mogelijkheden voor animatie, simulatie en digitale contentcreatie, evenals synthetische datageneratie.

English

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.

Richt je Gaussians: Tekst-naar-4D met Dynamische 3D Gaussians en Samengestelde Diffusiemodellen

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Samenvatting

Support