Zero-1-to-A: Avatares de Cabeça Animáveis a Partir de Uma Única Imagem em Modo Zero-Shot Usando Difusão de Vídeo

Resumo

A geração de avatares animáveis de cabeça normalmente requer dados extensos para treinamento. Para reduzir os requisitos de dados, uma solução natural é aproveitar métodos existentes de geração de avatares estáticos sem dados, como modelos de difusão pré-treinados com amostragem de destilação de pontuação (SDS), que alinham avatares com saídas pseudo ground-truth do modelo de difusão. No entanto, destilar diretamente avatares 4D a partir de vídeos de difusão frequentemente resulta em resultados excessivamente suavizados devido a inconsistências espaciais e temporais no vídeo gerado. Para resolver esse problema, propomos o Zero-1-to-A, um método robusto que sintetiza um conjunto de dados de consistência espacial e temporal para reconstrução de avatares 4D usando o modelo de difusão de vídeo. Especificamente, o Zero-1-to-A constrói iterativamente conjuntos de dados de vídeo e otimiza avatares animáveis de maneira progressiva, garantindo que a qualidade do avatar aumente de forma suave e consistente ao longo do processo de aprendizado. Esse aprendizado progressivo envolve duas etapas: (1) Aprendizado de Consistência Espacial, que fixa expressões e aprende de vistas frontais para laterais, e (2) Aprendizado de Consistência Temporal, que fixa as vistas e aprende de expressões relaxadas para exageradas, gerando avatares 4D de maneira simples para complexa. Experimentos extensivos demonstram que o Zero-1-to-A melhora a fidelidade, a qualidade da animação e a velocidade de renderização em comparação com métodos baseados em difusão existentes, fornecendo uma solução para a criação de avatares realistas. O código está disponível publicamente em: https://github.com/ZhenglinZhou/Zero-1-to-A.

English

Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.

Zero-1-to-A: Avatares de Cabeça Animáveis a Partir de Uma Única Imagem em Modo Zero-Shot Usando Difusão de Vídeo

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Resumo

Support