Совместите свои гауссовы распределения: Текст-в-4D с динамическими 3D гауссовыми распределениями и композиционными диффузионными моделями
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
Авторы: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
Аннотация
Модели диффузии с текстовым управлением произвели революцию в генерации изображений и видео, а также успешно применялись для синтеза 3D-объектов на основе оптимизации. В данной работе мы сосредоточимся на малоизученной задаче текстового описания в 4D и синтезируем динамические, анимированные 3D-объекты с использованием методов дистилляции оценок с дополнительным временным измерением. В отличие от предыдущих работ, мы предлагаем новый подход, основанный на композиционной генерации, и комбинируем модели текстового описания в изображения, видео и многовидовой диффузии с учетом 3D для предоставления обратной связи в процессе оптимизации 4D-объектов, тем самым одновременно обеспечивая временную согласованность, высококачественный визуальный вид и реалистичную геометрию. Наш метод, названный Align Your Gaussians (AYG), использует динамическое 3D-распределение Гаусса с полями деформации в качестве 4D-представления. Ключевым аспектом AYG является новый метод регуляризации распределения движущихся 3D-Гауссов, что стабилизирует оптимизацию и индуцирует движение. Мы также предлагаем механизм усиления движения и новую авторегрессивную схему синтеза для генерации и комбинирования нескольких 4D-последовательностей для более длительной генерации. Эти методы позволяют нам синтезировать яркие динамические сцены, превосходить предыдущие работы как качественно, так и количественно и достигать передовых результатов в задаче текстового описания в 4D. Благодаря 4D-представлению на основе Гауссов, различные 4D-анимации могут быть бесшовно объединены, что мы и демонстрируем. AYG открывает перспективные направления для анимации, симуляции, создания цифрового контента, а также генерации синтетических данных.
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.