Совместите свои гауссовы распределения: Текст-в-4D с динамическими 3D гауссовыми распределениями и композиционными диффузионными моделями

Аннотация

Модели диффузии с текстовым управлением произвели революцию в генерации изображений и видео, а также успешно применялись для синтеза 3D-объектов на основе оптимизации. В данной работе мы сосредоточимся на малоизученной задаче текстового описания в 4D и синтезируем динамические, анимированные 3D-объекты с использованием методов дистилляции оценок с дополнительным временным измерением. В отличие от предыдущих работ, мы предлагаем новый подход, основанный на композиционной генерации, и комбинируем модели текстового описания в изображения, видео и многовидовой диффузии с учетом 3D для предоставления обратной связи в процессе оптимизации 4D-объектов, тем самым одновременно обеспечивая временную согласованность, высококачественный визуальный вид и реалистичную геометрию. Наш метод, названный Align Your Gaussians (AYG), использует динамическое 3D-распределение Гаусса с полями деформации в качестве 4D-представления. Ключевым аспектом AYG является новый метод регуляризации распределения движущихся 3D-Гауссов, что стабилизирует оптимизацию и индуцирует движение. Мы также предлагаем механизм усиления движения и новую авторегрессивную схему синтеза для генерации и комбинирования нескольких 4D-последовательностей для более длительной генерации. Эти методы позволяют нам синтезировать яркие динамические сцены, превосходить предыдущие работы как качественно, так и количественно и достигать передовых результатов в задаче текстового описания в 4D. Благодаря 4D-представлению на основе Гауссов, различные 4D-анимации могут быть бесшовно объединены, что мы и демонстрируем. AYG открывает перспективные направления для анимации, симуляции, создания цифрового контента, а также генерации синтетических данных.

English

Text-guided diffusion models have revolutionized image and video generation and have also been successfully used for optimization-based 3D object synthesis. Here, we instead focus on the underexplored text-to-4D setting and synthesize dynamic, animated 3D objects using score distillation methods with an additional temporal dimension. Compared to previous work, we pursue a novel compositional generation-based approach, and combine text-to-image, text-to-video, and 3D-aware multiview diffusion models to provide feedback during 4D object optimization, thereby simultaneously enforcing temporal consistency, high-quality visual appearance and realistic geometry. Our method, called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with deformation fields as 4D representation. Crucial to AYG is a novel method to regularize the distribution of the moving 3D Gaussians and thereby stabilize the optimization and induce motion. We also propose a motion amplification mechanism as well as a new autoregressive synthesis scheme to generate and combine multiple 4D sequences for longer generation. These techniques allow us to synthesize vivid dynamic scenes, outperform previous work qualitatively and quantitatively and achieve state-of-the-art text-to-4D performance. Due to the Gaussian 4D representation, different 4D animations can be seamlessly combined, as we demonstrate. AYG opens up promising avenues for animation, simulation and digital content creation as well as synthetic data generation.

Совместите свои гауссовы распределения: Текст-в-4D с динамическими 3D гауссовыми распределениями и композиционными диффузионными моделями

Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Аннотация

Support