Zero-1-to-A : Création d'avatars de tête animables à partir d'une seule image en zero-shot grâce à la diffusion vidéo
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
March 20, 2025
Auteurs: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI
Résumé
La génération d'avatars de tête animables nécessite généralement des données importantes pour l'entraînement. Pour réduire ces besoins en données, une solution naturelle consiste à exploiter les méthodes existantes de génération d'avatars statiques sans données, telles que les modèles de diffusion pré-entraînés avec échantillonnage par distillation de score (SDS), qui alignent les avatars avec des sorties pseudo ground-truth issues du modèle de diffusion. Cependant, la distillation directe d'avatars 4D à partir de la diffusion vidéo conduit souvent à des résultats trop lissés en raison d'incohérences spatiales et temporelles dans la vidéo générée. Pour résoudre ce problème, nous proposons Zero-1-to-A, une méthode robuste qui synthétise un ensemble de données de cohérence spatiale et temporelle pour la reconstruction d'avatars 4D en utilisant le modèle de diffusion vidéo. Plus précisément, Zero-1-to-A construit itérativement des ensembles de données vidéo et optimise les avatars animables de manière progressive, garantissant que la qualité des avatars augmente de manière fluide et cohérente tout au long du processus d'apprentissage. Cet apprentissage progressif comprend deux étapes : (1) l'apprentissage de la cohérence spatiale, qui fixe les expressions et apprend à partir de vues de face à profil, et (2) l'apprentissage de la cohérence temporelle, qui fixe les vues et apprend à partir d'expressions détendues à exagérées, générant ainsi des avatars 4D de manière simple à complexe. Des expériences approfondies démontrent que Zero-1-to-A améliore la fidélité, la qualité de l'animation et la vitesse de rendu par rapport aux méthodes existantes basées sur la diffusion, offrant une solution pour la création d'avatars réalistes. Le code est disponible publiquement à l'adresse : https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for
training. To reduce the data requirements, a natural solution is to leverage
existing data-free static avatar generation methods, such as pre-trained
diffusion models with score distillation sampling (SDS), which align avatars
with pseudo ground-truth outputs from the diffusion model. However, directly
distilling 4D avatars from video diffusion often leads to over-smooth results
due to spatial and temporal inconsistencies in the generated video. To address
this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial
and temporal consistency dataset for 4D avatar reconstruction using the video
diffusion model. Specifically, Zero-1-to-A iteratively constructs video
datasets and optimizes animatable avatars in a progressive manner, ensuring
that avatar quality increases smoothly and consistently throughout the learning
process. This progressive learning involves two stages: (1) Spatial Consistency
Learning fixes expressions and learns from front-to-side views, and (2)
Temporal Consistency Learning fixes views and learns from relaxed to
exaggerated expressions, generating 4D avatars in a simple-to-complex manner.
Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation
quality, and rendering speed compared to existing diffusion-based methods,
providing a solution for lifelike avatar creation. Code is publicly available
at: https://github.com/ZhenglinZhou/Zero-1-to-A.Summary
AI-Generated Summary