PLA4D : Alignements au niveau des pixels pour la génération de splats gaussiens 4D à partir de texte

papers.abstract

Alors que les modèles de diffusion conditionnés par le texte (DMs) réalisent des percées dans la génération d'images, de vidéos et de contenus 3D, l'attention de la communauté de recherche s'est tournée vers la tâche plus complexe de la synthèse texte-à-4D, qui introduit une dimension temporelle pour générer des objets 3D dynamiques. Dans ce contexte, nous identifions le Score Distillation Sampling (SDS), une technique largement utilisée pour la synthèse texte-à-3D, comme un obstacle majeur à la performance texte-à-4D en raison de ses problèmes de visages multiples (Janus-faced), de textures irréalistes et de coûts de calcul élevés. Dans cet article, nous proposons Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D), une nouvelle méthode qui utilise des images vidéo générées à partir de texte comme cibles d'alignement explicites au niveau des pixels pour générer des objets 3D statiques et y injecter du mouvement. Plus précisément, nous introduisons l'Alignement Focal pour calibrer les poses de caméra pour le rendu, et le GS-Mesh Contrastive Learning pour distiller des connaissances géométriques à partir des contrastes d'images rendues au niveau des pixels. De plus, nous développons l'Alignement de Mouvement à l'aide d'un réseau de déformation pour piloter les changements dans les Gaussiennes, et mettons en œuvre le Raffinement de Référence pour obtenir des surfaces d'objets 4D lisses. Ces techniques permettent au Gaussian Splatting 4D d'aligner la géométrie, la texture et le mouvement avec les vidéos générées au niveau des pixels. Par rapport aux méthodes précédentes, PLA4D produit des sorties synthétisées avec de meilleurs détails de texture en moins de temps et atténue efficacement le problème des visages multiples. PLA4D est entièrement implémenté à l'aide de modèles open-source, offrant une direction accessible, conviviale et prometteuse pour la création de contenus numériques 4D. Notre page de projet : https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.

English

As text-conditioned diffusion models (DMs) achieve breakthroughs in image, video, and 3D generation, the research community's focus has shifted to the more challenging task of text-to-4D synthesis, which introduces a temporal dimension to generate dynamic 3D objects. In this context, we identify Score Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis, as a significant hindrance to text-to-4D performance due to its Janus-faced and texture-unrealistic problems coupled with high computational costs. In this paper, we propose Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D), a novel method that utilizes text-to-video frames as explicit pixel alignment targets to generate static 3D objects and inject motion into them. Specifically, we introduce Focal Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive Learning to distill geometry priors from rendered image contrasts at the pixel level. Additionally, we develop Motion Alignment using a deformation network to drive changes in Gaussians and implement Reference Refinement for smooth 4D object surfaces. These techniques enable 4D Gaussian Splatting to align geometry, texture, and motion with generated videos at the pixel level. Compared to previous methods, PLA4D produces synthesized outputs with better texture details in less time and effectively mitigates the Janus-faced problem. PLA4D is fully implemented using open-source models, offering an accessible, user-friendly, and promising direction for 4D digital content creation. Our project page: https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.

PLA4D : Alignements au niveau des pixels pour la génération de splats gaussiens 4D à partir de texte

PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

papers.abstract

Support