PLA4D: テキストから4Dガウススプラッティングへのピクセルレベルアライメント
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
May 30, 2024
著者: Qiaowei Miao, Yawei Luo, Yi Yang
cs.AI
要旨
テキスト条件付き拡散モデル(DMs)が画像、ビデオ、3D生成においてブレークスルーを達成する中、研究コミュニティの焦点はより挑戦的なテキストから4D合成へと移行しつつあり、これは動的な3Dオブジェクトを生成するために時間次元を導入するものです。この文脈において、テキストから3D合成に広く使用されているスコア蒸留サンプリング(SDS)が、Janus-faced問題やテクスチャの非現実性の問題、そして高い計算コストにより、テキストから4D性能の重大な障害となっていることを指摘します。本論文では、テキストからビデオフレームを明示的なピクセルアライメントターゲットとして利用し、静的3Dオブジェクトを生成し、それらに動きを注入する新しい手法である、テキストから4Dガウススプラッティングのためのピクセルレベルアライメント(PLA4D)を提案します。具体的には、レンダリングのためのカメラポーズを校正するフォーカルアライメントと、ピクセルレベルでレンダリングされた画像コントラストからジオメトリの事前知識を蒸留するGS-Meshコントラスティブラーニングを導入します。さらに、変形ネットワークを使用してガウシアンの変化を駆動するモーションアライメントと、滑らかな4Dオブジェクト表面を実現するためのリファレンスリファインメントを開発します。これらの技術により、4Dガウススプラッティングはジオメトリ、テクスチャ、および動きを生成されたビデオとピクセルレベルでアライメントすることが可能になります。従来の方法と比較して、PLA4Dはより良いテクスチャ詳細を短時間で生成し、Janus-faced問題を効果的に軽減します。PLA4Dはオープンソースモデルを使用して完全に実装されており、4Dデジタルコンテンツ作成のためのアクセス可能でユーザーフレンドリーな有望な方向性を提供します。私たちのプロジェクトページは以下です:https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}。
English
As text-conditioned diffusion models (DMs) achieve breakthroughs in image,
video, and 3D generation, the research community's focus has shifted to the
more challenging task of text-to-4D synthesis, which introduces a temporal
dimension to generate dynamic 3D objects. In this context, we identify Score
Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis,
as a significant hindrance to text-to-4D performance due to its Janus-faced and
texture-unrealistic problems coupled with high computational costs. In this
paper, we propose Pixel-Level Alignments for
Text-to-4D Gaussian Splatting (PLA4D), a novel method that
utilizes text-to-video frames as explicit pixel alignment targets to generate
static 3D objects and inject motion into them. Specifically, we introduce Focal
Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive
Learning to distill geometry priors from rendered image contrasts at the pixel
level. Additionally, we develop Motion Alignment using a deformation network to
drive changes in Gaussians and implement Reference Refinement for smooth 4D
object surfaces. These techniques enable 4D Gaussian Splatting to align
geometry, texture, and motion with generated videos at the pixel level.
Compared to previous methods, PLA4D produces synthesized outputs with better
texture details in less time and effectively mitigates the Janus-faced problem.
PLA4D is fully implemented using open-source models, offering an accessible,
user-friendly, and promising direction for 4D digital content creation. Our
project page:
https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.Summary
AI-Generated Summary