Zero-1-to-A: Avatares de Cabeça Animáveis a Partir de Uma Única Imagem em Modo Zero-Shot Usando Difusão de Vídeo
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
March 20, 2025
Autores: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI
Resumo
A geração de avatares animáveis de cabeça normalmente requer dados extensos para treinamento. Para reduzir os requisitos de dados, uma solução natural é aproveitar métodos existentes de geração de avatares estáticos sem dados, como modelos de difusão pré-treinados com amostragem de destilação de pontuação (SDS), que alinham avatares com saídas pseudo ground-truth do modelo de difusão. No entanto, destilar diretamente avatares 4D a partir de vídeos de difusão frequentemente resulta em resultados excessivamente suavizados devido a inconsistências espaciais e temporais no vídeo gerado. Para resolver esse problema, propomos o Zero-1-to-A, um método robusto que sintetiza um conjunto de dados de consistência espacial e temporal para reconstrução de avatares 4D usando o modelo de difusão de vídeo. Especificamente, o Zero-1-to-A constrói iterativamente conjuntos de dados de vídeo e otimiza avatares animáveis de maneira progressiva, garantindo que a qualidade do avatar aumente de forma suave e consistente ao longo do processo de aprendizado. Esse aprendizado progressivo envolve duas etapas: (1) Aprendizado de Consistência Espacial, que fixa expressões e aprende de vistas frontais para laterais, e (2) Aprendizado de Consistência Temporal, que fixa as vistas e aprende de expressões relaxadas para exageradas, gerando avatares 4D de maneira simples para complexa. Experimentos extensivos demonstram que o Zero-1-to-A melhora a fidelidade, a qualidade da animação e a velocidade de renderização em comparação com métodos baseados em difusão existentes, fornecendo uma solução para a criação de avatares realistas. O código está disponível publicamente em: https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for
training. To reduce the data requirements, a natural solution is to leverage
existing data-free static avatar generation methods, such as pre-trained
diffusion models with score distillation sampling (SDS), which align avatars
with pseudo ground-truth outputs from the diffusion model. However, directly
distilling 4D avatars from video diffusion often leads to over-smooth results
due to spatial and temporal inconsistencies in the generated video. To address
this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial
and temporal consistency dataset for 4D avatar reconstruction using the video
diffusion model. Specifically, Zero-1-to-A iteratively constructs video
datasets and optimizes animatable avatars in a progressive manner, ensuring
that avatar quality increases smoothly and consistently throughout the learning
process. This progressive learning involves two stages: (1) Spatial Consistency
Learning fixes expressions and learns from front-to-side views, and (2)
Temporal Consistency Learning fixes views and learns from relaxed to
exaggerated expressions, generating 4D avatars in a simple-to-complex manner.
Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation
quality, and rendering speed compared to existing diffusion-based methods,
providing a solution for lifelike avatar creation. Code is publicly available
at: https://github.com/ZhenglinZhou/Zero-1-to-A.Summary
AI-Generated Summary