Alinhe Seus Gaussianos: Texto-para-4D com Gaussianos 3D Dinâmicos e Modelos de Difusão Compostos
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
Autores: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
Resumo
Modelos de difusão guiados por texto revolucionaram a geração de imagens e vídeos e também têm sido usados com sucesso para a síntese de objetos 3D baseada em otimização. Aqui, focamos no cenário pouco explorado de texto-para-4D e sintetizamos objetos 3D dinâmicos e animados usando métodos de destilação de pontuação com uma dimensão temporal adicional. Em comparação com trabalhos anteriores, adotamos uma abordagem inovadora baseada em geração composicional e combinamos modelos de difusão texto-para-imagem, texto-para-vídeo e multivista com consciência 3D para fornecer feedback durante a otimização de objetos 4D, garantindo simultaneamente consistência temporal, aparência visual de alta qualidade e geometria realista. Nosso método, chamado Align Your Gaussians (AYG), utiliza o Splatting de Gaussianas 3D dinâmicas com campos de deformação como representação 4D. Crucial para o AYG é um novo método para regularizar a distribuição das Gaussianas 3D em movimento, estabilizando a otimização e induzindo movimento. Também propomos um mecanismo de amplificação de movimento e um novo esquema de síntese autoregressiva para gerar e combinar múltiplas sequências 4D para gerações mais longas. Essas técnicas nos permitem sintetizar cenas dinâmicas vívidas, superar trabalhos anteriores qualitativa e quantitativamente e alcançar desempenho state-of-the-art em texto-para-4D. Devido à representação 4D baseada em Gaussianas, diferentes animações 4D podem ser combinadas de forma contínua, como demonstramos. O AYG abre caminhos promissores para animação, simulação, criação de conteúdo digital e geração de dados sintéticos.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.