ChatPaper.aiChatPaper

DreamWaltz-G: Avatares Gaussianos 3D expresivos a partir de Difusión 2D guiada por esqueleto

DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

September 25, 2024
Autores: Yukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu
cs.AI

Resumen

Aprovechando modelos de difusión 2D preentrenados y muestreo de destilación de puntajes (SDS), métodos recientes han mostrado resultados prometedores para la generación de avatares 3D a partir de texto. Sin embargo, generar avatares 3D de alta calidad capaces de animación expresiva sigue siendo un desafío. En este trabajo, presentamos DreamWaltz-G, un nuevo marco de aprendizaje para la generación de avatares 3D animables a partir de texto. El núcleo de este marco radica en la Destilación de Puntajes Guiada por Esqueleto y la representación híbrida de Avatar Gaussiano 3D. Específicamente, la destilación de puntajes guiada por esqueleto propuesta integra controles de esqueleto de plantillas humanas 3D en modelos de difusión 2D, mejorando la consistencia de la supervisión de SDS en términos de vista y postura humana. Esto facilita la generación de avatares de alta calidad, mitigando problemas como múltiples caras, miembros adicionales y borrosidad. La representación de avatar gaussiano 3D híbrido propuesta se basa en los eficientes gaussianos 3D, combinando campos implícitos neuronales y mallas 3D parametrizadas para permitir renderizado en tiempo real, optimización estable de SDS y animación expresiva. Experimentos extensos demuestran que DreamWaltz-G es altamente efectivo en la generación y animación de avatares 3D, superando a los métodos existentes tanto en calidad visual como en expresividad de animación. Nuestro marco también admite diversas aplicaciones, incluyendo la recreación de video humano y la composición de escenas con varios sujetos.
English
Leveraging pretrained 2D diffusion models and score distillation sampling (SDS), recent methods have shown promising results for text-to-3D avatar generation. However, generating high-quality 3D avatars capable of expressive animation remains challenging. In this work, we present DreamWaltz-G, a novel learning framework for animatable 3D avatar generation from text. The core of this framework lies in Skeleton-guided Score Distillation and Hybrid 3D Gaussian Avatar representation. Specifically, the proposed skeleton-guided score distillation integrates skeleton controls from 3D human templates into 2D diffusion models, enhancing the consistency of SDS supervision in terms of view and human pose. This facilitates the generation of high-quality avatars, mitigating issues such as multiple faces, extra limbs, and blurring. The proposed hybrid 3D Gaussian avatar representation builds on the efficient 3D Gaussians, combining neural implicit fields and parameterized 3D meshes to enable real-time rendering, stable SDS optimization, and expressive animation. Extensive experiments demonstrate that DreamWaltz-G is highly effective in generating and animating 3D avatars, outperforming existing methods in both visual quality and animation expressiveness. Our framework further supports diverse applications, including human video reenactment and multi-subject scene composition.

Summary

AI-Generated Summary

PDF153November 16, 2024