Zero-1-to-A: Zero-Shot One Image naar Animeerbare Hoofd Avatars met Video Diffusie

Samenvatting

Het genereren van animeerbare hoofdavatars vereist doorgaans uitgebreide gegevens voor training. Om de benodigde hoeveelheid data te verminderen, is een natuurlijke oplossing om gebruik te maken van bestaande methoden voor het genereren van statische avatars zonder data, zoals vooraf getrainde diffusiemodellen met score-distillatie sampling (SDS), die avatars afstemmen op pseudo grondwaarheid-uitvoer van het diffusiemodel. Direct destilleren van 4D-avatars uit videodiffusie leidt echter vaak tot overmatig vloeiende resultaten vanwege ruimtelijke en temporele inconsistenties in de gegenereerde video. Om dit probleem aan te pakken, stellen we Zero-1-to-A voor, een robuuste methode die een ruimtelijk en temporeel consistentiedataset synthetiseert voor 4D-avatarreconstructie met behulp van het videodiffusiemodel. Specifiek construeert Zero-1-to-A iteratief videodatasets en optimaliseert animeerbare avatars op een progressieve manier, waardoor de avatar-kwaliteit soepel en consistent toeneemt gedurende het leerproces. Deze progressieve leerbenadering omvat twee fasen: (1) Ruimtelijke Consistentie Leren fixeert expressies en leert van voor- naar zijaanzichten, en (2) Temporele Consistentie Leren fixeert aanzichten en leert van ontspannen tot overdreven expressies, waardoor 4D-avatars op een eenvoudig-naar-complexe manier worden gegenereerd. Uitgebreide experimenten tonen aan dat Zero-1-to-A de getrouwheid, animatiekwaliteit en renderingsnelheid verbetert in vergelijking met bestaande diffusiegebaseerde methoden, en biedt zo een oplossing voor het creëren van levensechte avatars. Code is publiekelijk beschikbaar op: https://github.com/ZhenglinZhou/Zero-1-to-A.

English

Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.

Zero-1-to-A: Zero-Shot One Image naar Animeerbare Hoofd Avatars met Video Diffusie

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Samenvatting

Support