Zero-1-to-A: Avatares Animables de Cabeza desde una Imagen en Modo Cero Disparo utilizando Difusión de Video
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
March 20, 2025
Autores: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI
Resumen
La generación de avatares animados de cabezas generalmente requiere una gran cantidad de datos para el entrenamiento. Para reducir los requisitos de datos, una solución natural es aprovechar los métodos existentes de generación de avatares estáticos sin datos, como los modelos de difusión preentrenados con muestreo de destilación de puntuación (SDS), que alinean los avatares con salidas pseudo verdaderas del modelo de difusión. Sin embargo, destilar directamente avatares 4D a partir de difusión de video a menudo produce resultados demasiado suaves debido a inconsistencias espaciales y temporales en el video generado. Para abordar este problema, proponemos Zero-1-to-A, un método robusto que sintetiza un conjunto de datos de consistencia espacial y temporal para la reconstrucción de avatares 4D utilizando el modelo de difusión de video. Específicamente, Zero-1-to-A construye iterativamente conjuntos de datos de video y optimiza avatares animables de manera progresiva, asegurando que la calidad del avatar aumente de manera suave y consistente durante el proceso de aprendizaje. Este aprendizaje progresivo involucra dos etapas: (1) el Aprendizaje de Consistencia Espacial fija expresiones y aprende desde vistas frontales hasta laterales, y (2) el Aprendizaje de Consistencia Temporal fija vistas y aprende desde expresiones relajadas hasta exageradas, generando avatares 4D de manera simple a compleja. Experimentos extensos demuestran que Zero-1-to-A mejora la fidelidad, la calidad de la animación y la velocidad de renderizado en comparación con los métodos basados en difusión existentes, proporcionando una solución para la creación de avatares realistas. El código está disponible públicamente en: https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for
training. To reduce the data requirements, a natural solution is to leverage
existing data-free static avatar generation methods, such as pre-trained
diffusion models with score distillation sampling (SDS), which align avatars
with pseudo ground-truth outputs from the diffusion model. However, directly
distilling 4D avatars from video diffusion often leads to over-smooth results
due to spatial and temporal inconsistencies in the generated video. To address
this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial
and temporal consistency dataset for 4D avatar reconstruction using the video
diffusion model. Specifically, Zero-1-to-A iteratively constructs video
datasets and optimizes animatable avatars in a progressive manner, ensuring
that avatar quality increases smoothly and consistently throughout the learning
process. This progressive learning involves two stages: (1) Spatial Consistency
Learning fixes expressions and learns from front-to-side views, and (2)
Temporal Consistency Learning fixes views and learns from relaxed to
exaggerated expressions, generating 4D avatars in a simple-to-complex manner.
Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation
quality, and rendering speed compared to existing diffusion-based methods,
providing a solution for lifelike avatar creation. Code is publicly available
at: https://github.com/ZhenglinZhou/Zero-1-to-A.Summary
AI-Generated Summary