ChatPaper.aiChatPaper

Richten Sie Ihre Gaußverteilungen aus: Text-zu-4D mit dynamischen 3D-Gaußverteilungen und kombinierten Diffusionsmodellen

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

December 21, 2023
Autoren: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI

Zusammenfassung

Textgesteuerte Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert und wurden auch erfolgreich für optimierungsbasierte 3D-Objektsynthese eingesetzt. Hier konzentrieren wir uns stattdessen auf das bisher wenig erforschte Text-zu-4D-Setting und synthetisieren dynamische, animierte 3D-Objekte mithilfe von Score-Distillation-Methoden mit einer zusätzlichen zeitlichen Dimension. Im Vergleich zu früheren Arbeiten verfolgen wir einen neuartigen, kompositionellen generierungsbasierten Ansatz und kombinieren Text-zu-Bild-, Text-zu-Video- und 3D-bewusste Multiview-Diffusionsmodelle, um während der 4D-Objektoptimierung Feedback zu liefern, wodurch gleichzeitig zeitliche Konsistenz, hochwertiges visuelles Erscheinungsbild und realistische Geometrie sichergestellt werden. Unsere Methode, genannt Align Your Gaussians (AYG), nutzt dynamisches 3D-Gaussian-Splatting mit Deformationsfeldern als 4D-Repräsentation. Entscheidend für AYG ist eine neuartige Methode zur Regularisierung der Verteilung der beweglichen 3D-Gaussians, um dadurch die Optimierung zu stabilisieren und Bewegung zu induzieren. Wir schlagen außerdem einen Bewegungsverstärkungsmechanismus sowie ein neues autoregressives Syntheseschema vor, um mehrere 4D-Sequenzen für längere Generierung zu erzeugen und zu kombinieren. Diese Techniken ermöglichen es uns, lebendige dynamische Szenen zu synthetisieren, frühere Arbeiten qualitativ und quantitativ zu übertreffen und state-of-the-art Text-zu-4D-Leistung zu erreichen. Aufgrund der Gaussian-4D-Repräsentation können verschiedene 4D-Animationen nahtlos kombiniert werden, wie wir demonstrieren. AYG eröffnet vielversprechende Möglichkeiten für Animation, Simulation und digitale Inhaltserstellung sowie synthetische Datengenerierung.
English
Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.
PDF111December 15, 2024