ガウシアンを整列させよ:動的3Dガウシアンと構成拡散モデルによるテキストから4D生成
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
December 21, 2023
著者: Huan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis
cs.AI
要旨
テキストガイド拡散モデルは、画像および動画生成に革命をもたらし、最適化ベースの3Dオブジェクト合成にも成功裏に適用されてきました。本論文では、未開拓のテキストから4Dへの設定に焦点を当て、時間次元を追加したスコア蒸留法を用いて動的なアニメーション3Dオブジェクトを合成します。従来の研究と比較して、我々は新たな構成的生成ベースのアプローチを追求し、テキストから画像、テキストから動画、3D対応マルチビュー拡散モデルを組み合わせることで、4Dオブジェクト最適化中にフィードバックを提供し、時間的一貫性、高品質な視覚的外観、現実的な幾何学を同時に実現します。我々の手法「Align Your Gaussians(AYG)」は、変形フィールドを伴う動的3Dガウシアンスプラッティングを4D表現として活用します。AYGの鍵となるのは、移動する3Dガウシアンの分布を正則化し、最適化を安定化させて動きを誘導する新たな手法です。また、動きを増幅するメカニズムと、複数の4Dシーケンスを生成・結合するための新しい自己回帰的合成スキームを提案します。これらの技術により、鮮やかな動的シーンを合成し、従来の研究を質的・量的に上回り、テキストから4Dへの最先端の性能を達成します。ガウシアン4D表現により、異なる4Dアニメーションをシームレスに結合できることを実証します。AYGは、アニメーション、シミュレーション、デジタルコンテンツ制作、および合成データ生成において有望な道を開きます。
English
Text-guided diffusion models have revolutionized image and video generation
and have also been successfully used for optimization-based 3D object
synthesis. Here, we instead focus on the underexplored text-to-4D setting and
synthesize dynamic, animated 3D objects using score distillation methods with
an additional temporal dimension. Compared to previous work, we pursue a novel
compositional generation-based approach, and combine text-to-image,
text-to-video, and 3D-aware multiview diffusion models to provide feedback
during 4D object optimization, thereby simultaneously enforcing temporal
consistency, high-quality visual appearance and realistic geometry. Our method,
called Align Your Gaussians (AYG), leverages dynamic 3D Gaussian Splatting with
deformation fields as 4D representation. Crucial to AYG is a novel method to
regularize the distribution of the moving 3D Gaussians and thereby stabilize
the optimization and induce motion. We also propose a motion amplification
mechanism as well as a new autoregressive synthesis scheme to generate and
combine multiple 4D sequences for longer generation. These techniques allow us
to synthesize vivid dynamic scenes, outperform previous work qualitatively and
quantitatively and achieve state-of-the-art text-to-4D performance. Due to the
Gaussian 4D representation, different 4D animations can be seamlessly combined,
as we demonstrate. AYG opens up promising avenues for animation, simulation and
digital content creation as well as synthetic data generation.