ChatPaper.aiChatPaper

Zero-1-to-A : Création d'avatars de tête animables à partir d'une seule image en zero-shot grâce à la diffusion vidéo

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

March 20, 2025
Auteurs: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI

Résumé

La génération d'avatars de tête animables nécessite généralement des données importantes pour l'entraînement. Pour réduire ces besoins en données, une solution naturelle consiste à exploiter les méthodes existantes de génération d'avatars statiques sans données, telles que les modèles de diffusion pré-entraînés avec échantillonnage par distillation de score (SDS), qui alignent les avatars avec des sorties pseudo ground-truth issues du modèle de diffusion. Cependant, la distillation directe d'avatars 4D à partir de la diffusion vidéo conduit souvent à des résultats trop lissés en raison d'incohérences spatiales et temporelles dans la vidéo générée. Pour résoudre ce problème, nous proposons Zero-1-to-A, une méthode robuste qui synthétise un ensemble de données de cohérence spatiale et temporelle pour la reconstruction d'avatars 4D en utilisant le modèle de diffusion vidéo. Plus précisément, Zero-1-to-A construit itérativement des ensembles de données vidéo et optimise les avatars animables de manière progressive, garantissant que la qualité des avatars augmente de manière fluide et cohérente tout au long du processus d'apprentissage. Cet apprentissage progressif comprend deux étapes : (1) l'apprentissage de la cohérence spatiale, qui fixe les expressions et apprend à partir de vues de face à profil, et (2) l'apprentissage de la cohérence temporelle, qui fixe les vues et apprend à partir d'expressions détendues à exagérées, générant ainsi des avatars 4D de manière simple à complexe. Des expériences approfondies démontrent que Zero-1-to-A améliore la fidélité, la qualité de l'animation et la vitesse de rendu par rapport aux méthodes existantes basées sur la diffusion, offrant une solution pour la création d'avatars réalistes. Le code est disponible publiquement à l'adresse : https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.

Summary

AI-Generated Summary

PDF102March 21, 2025