ChatPaper.aiChatPaper

Zero-1-to-A: Creazione di Avatar Animabili della Testa da una Singola Immagine in Modalità Zero-Shot Utilizzando la Diffusione Video

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

March 20, 2025
Autori: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI

Abstract

La generazione di avatar animabili della testa richiede tipicamente dati estesi per l'addestramento. Per ridurre i requisiti di dati, una soluzione naturale è sfruttare metodi esistenti di generazione di avatar statici senza dati, come modelli di diffusione pre-addestrati con campionamento di distillazione del punteggio (SDS), che allineano gli avatar con output pseudo ground-truth provenienti dal modello di diffusione. Tuttavia, distillare direttamente avatar 4D da video di diffusione spesso porta a risultati eccessivamente lisci a causa di incoerenze spaziali e temporali nel video generato. Per affrontare questo problema, proponiamo Zero-1-to-A, un metodo robusto che sintetizza un dataset di coerenza spaziale e temporale per la ricostruzione di avatar 4D utilizzando il modello di diffusione video. Nello specifico, Zero-1-to-A costruisce iterativamente dataset video e ottimizza gli avatar animabili in modo progressivo, garantendo che la qualità degli avatar aumenti in modo fluido e coerente durante il processo di apprendimento. Questo apprendimento progressivo coinvolge due fasi: (1) l'Apprendimento della Coerenza Spaziale fissa le espressioni e apprende dalle viste frontali a quelle laterali, e (2) l'Apprendimento della Coerenza Temporale fissa le viste e apprende da espressioni rilassate a esagerate, generando avatar 4D in modo da semplice a complesso. Esperimenti estesi dimostrano che Zero-1-to-A migliora la fedeltà, la qualità dell'animazione e la velocità di rendering rispetto ai metodi basati sulla diffusione esistenti, fornendo una soluzione per la creazione di avatar realistici. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.
PDF102March 21, 2025