Zero-1-to-A: Zero-Shot One Image naar Animeerbare Hoofd Avatars met Video Diffusie
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
March 20, 2025
Auteurs: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI
Samenvatting
Het genereren van animeerbare hoofdavatars vereist doorgaans uitgebreide gegevens voor training. Om de benodigde hoeveelheid data te verminderen, is een natuurlijke oplossing om gebruik te maken van bestaande methoden voor het genereren van statische avatars zonder data, zoals vooraf getrainde diffusiemodellen met score-distillatie sampling (SDS), die avatars afstemmen op pseudo grondwaarheid-uitvoer van het diffusiemodel. Direct destilleren van 4D-avatars uit videodiffusie leidt echter vaak tot overmatig vloeiende resultaten vanwege ruimtelijke en temporele inconsistenties in de gegenereerde video. Om dit probleem aan te pakken, stellen we Zero-1-to-A voor, een robuuste methode die een ruimtelijk en temporeel consistentiedataset synthetiseert voor 4D-avatarreconstructie met behulp van het videodiffusiemodel. Specifiek construeert Zero-1-to-A iteratief videodatasets en optimaliseert animeerbare avatars op een progressieve manier, waardoor de avatar-kwaliteit soepel en consistent toeneemt gedurende het leerproces. Deze progressieve leerbenadering omvat twee fasen: (1) Ruimtelijke Consistentie Leren fixeert expressies en leert van voor- naar zijaanzichten, en (2) Temporele Consistentie Leren fixeert aanzichten en leert van ontspannen tot overdreven expressies, waardoor 4D-avatars op een eenvoudig-naar-complexe manier worden gegenereerd. Uitgebreide experimenten tonen aan dat Zero-1-to-A de getrouwheid, animatiekwaliteit en renderingsnelheid verbetert in vergelijking met bestaande diffusiegebaseerde methoden, en biedt zo een oplossing voor het creëren van levensechte avatars. Code is publiekelijk beschikbaar op: https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for
training. To reduce the data requirements, a natural solution is to leverage
existing data-free static avatar generation methods, such as pre-trained
diffusion models with score distillation sampling (SDS), which align avatars
with pseudo ground-truth outputs from the diffusion model. However, directly
distilling 4D avatars from video diffusion often leads to over-smooth results
due to spatial and temporal inconsistencies in the generated video. To address
this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial
and temporal consistency dataset for 4D avatar reconstruction using the video
diffusion model. Specifically, Zero-1-to-A iteratively constructs video
datasets and optimizes animatable avatars in a progressive manner, ensuring
that avatar quality increases smoothly and consistently throughout the learning
process. This progressive learning involves two stages: (1) Spatial Consistency
Learning fixes expressions and learns from front-to-side views, and (2)
Temporal Consistency Learning fixes views and learns from relaxed to
exaggerated expressions, generating 4D avatars in a simple-to-complex manner.
Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation
quality, and rendering speed compared to existing diffusion-based methods,
providing a solution for lifelike avatar creation. Code is publicly available
at: https://github.com/ZhenglinZhou/Zero-1-to-A.Summary
AI-Generated Summary