PLA4D : Alignements au niveau des pixels pour la génération de splats gaussiens 4D à partir de texte
PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
May 30, 2024
Auteurs: Qiaowei Miao, Yawei Luo, Yi Yang
cs.AI
Résumé
Alors que les modèles de diffusion conditionnés par le texte (DMs) réalisent des percées dans la génération d'images, de vidéos et de contenus 3D, l'attention de la communauté de recherche s'est tournée vers la tâche plus complexe de la synthèse texte-à-4D, qui introduit une dimension temporelle pour générer des objets 3D dynamiques. Dans ce contexte, nous identifions le Score Distillation Sampling (SDS), une technique largement utilisée pour la synthèse texte-à-3D, comme un obstacle majeur à la performance texte-à-4D en raison de ses problèmes de visages multiples (Janus-faced), de textures irréalistes et de coûts de calcul élevés. Dans cet article, nous proposons Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D), une nouvelle méthode qui utilise des images vidéo générées à partir de texte comme cibles d'alignement explicites au niveau des pixels pour générer des objets 3D statiques et y injecter du mouvement. Plus précisément, nous introduisons l'Alignement Focal pour calibrer les poses de caméra pour le rendu, et le GS-Mesh Contrastive Learning pour distiller des connaissances géométriques à partir des contrastes d'images rendues au niveau des pixels. De plus, nous développons l'Alignement de Mouvement à l'aide d'un réseau de déformation pour piloter les changements dans les Gaussiennes, et mettons en œuvre le Raffinement de Référence pour obtenir des surfaces d'objets 4D lisses. Ces techniques permettent au Gaussian Splatting 4D d'aligner la géométrie, la texture et le mouvement avec les vidéos générées au niveau des pixels. Par rapport aux méthodes précédentes, PLA4D produit des sorties synthétisées avec de meilleurs détails de texture en moins de temps et atténue efficacement le problème des visages multiples. PLA4D est entièrement implémenté à l'aide de modèles open-source, offrant une direction accessible, conviviale et prometteuse pour la création de contenus numériques 4D. Notre page de projet : https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.
English
As text-conditioned diffusion models (DMs) achieve breakthroughs in image,
video, and 3D generation, the research community's focus has shifted to the
more challenging task of text-to-4D synthesis, which introduces a temporal
dimension to generate dynamic 3D objects. In this context, we identify Score
Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis,
as a significant hindrance to text-to-4D performance due to its Janus-faced and
texture-unrealistic problems coupled with high computational costs. In this
paper, we propose Pixel-Level Alignments for
Text-to-4D Gaussian Splatting (PLA4D), a novel method that
utilizes text-to-video frames as explicit pixel alignment targets to generate
static 3D objects and inject motion into them. Specifically, we introduce Focal
Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive
Learning to distill geometry priors from rendered image contrasts at the pixel
level. Additionally, we develop Motion Alignment using a deformation network to
drive changes in Gaussians and implement Reference Refinement for smooth 4D
object surfaces. These techniques enable 4D Gaussian Splatting to align
geometry, texture, and motion with generated videos at the pixel level.
Compared to previous methods, PLA4D produces synthesized outputs with better
texture details in less time and effectively mitigates the Janus-faced problem.
PLA4D is fully implemented using open-source models, offering an accessible,
user-friendly, and promising direction for 4D digital content creation. Our
project page:
https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.Summary
AI-Generated Summary