Zero-1-to-A: Avatares Animables de Cabeza desde una Imagen en Modo Cero Disparo utilizando Difusión de Video

Resumen

La generación de avatares animados de cabezas generalmente requiere una gran cantidad de datos para el entrenamiento. Para reducir los requisitos de datos, una solución natural es aprovechar los métodos existentes de generación de avatares estáticos sin datos, como los modelos de difusión preentrenados con muestreo de destilación de puntuación (SDS), que alinean los avatares con salidas pseudo verdaderas del modelo de difusión. Sin embargo, destilar directamente avatares 4D a partir de difusión de video a menudo produce resultados demasiado suaves debido a inconsistencias espaciales y temporales en el video generado. Para abordar este problema, proponemos Zero-1-to-A, un método robusto que sintetiza un conjunto de datos de consistencia espacial y temporal para la reconstrucción de avatares 4D utilizando el modelo de difusión de video. Específicamente, Zero-1-to-A construye iterativamente conjuntos de datos de video y optimiza avatares animables de manera progresiva, asegurando que la calidad del avatar aumente de manera suave y consistente durante el proceso de aprendizaje. Este aprendizaje progresivo involucra dos etapas: (1) el Aprendizaje de Consistencia Espacial fija expresiones y aprende desde vistas frontales hasta laterales, y (2) el Aprendizaje de Consistencia Temporal fija vistas y aprende desde expresiones relajadas hasta exageradas, generando avatares 4D de manera simple a compleja. Experimentos extensos demuestran que Zero-1-to-A mejora la fidelidad, la calidad de la animación y la velocidad de renderizado en comparación con los métodos basados en difusión existentes, proporcionando una solución para la creación de avatares realistas. El código está disponible públicamente en: https://github.com/ZhenglinZhou/Zero-1-to-A.

English

Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.

Zero-1-to-A: Avatares Animables de Cabeza desde una Imagen en Modo Cero Disparo utilizando Difusión de Video

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Resumen

Support