Zero-1-to-A: Создание анимируемых аватаров головы из одного изображения с нулевым обучением с использованием видеодиффузии
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
March 20, 2025
Авторы: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI
Аннотация
Создание анимируемых аватаров головы обычно требует обширных данных для обучения. Чтобы сократить объем необходимых данных, естественным решением является использование существующих методов генерации статических аватаров, не требующих данных, таких как предобученные диффузионные модели с использованием семплирования по оценке (SDS), которые согласовывают аватары с псевдо-истинными выходами из диффузионной модели. Однако прямое дистиллирование 4D аватаров из видео, созданного диффузионной моделью, часто приводит к излишне сглаженным результатам из-за пространственных и временных несоответствий в сгенерированном видео. Для решения этой проблемы мы предлагаем Zero-1-to-A — надежный метод, который синтезирует набор данных с пространственной и временной согласованностью для реконструкции 4D аватаров с использованием видео-диффузионной модели. В частности, Zero-1-to-A итеративно строит наборы видео и оптимизирует анимируемые аватары прогрессивным образом, обеспечивая плавное и последовательное повышение качества аватаров в процессе обучения. Этот прогрессивный процесс обучения включает два этапа: (1) Обучение пространственной согласованности фиксирует выражения и обучается на видах спереди и сбоку, и (2) Обучение временной согласованности фиксирует виды и обучается на переходах от расслабленных к преувеличенным выражениям, генерируя 4D аватары от простого к сложному. Многочисленные эксперименты демонстрируют, что Zero-1-to-A улучшает точность, качество анимации и скорость рендеринга по сравнению с существующими методами на основе диффузии, предлагая решение для создания реалистичных аватаров. Код доступен по адресу: https://github.com/ZhenglinZhou/Zero-1-to-A.
English
Animatable head avatar generation typically requires extensive data for
training. To reduce the data requirements, a natural solution is to leverage
existing data-free static avatar generation methods, such as pre-trained
diffusion models with score distillation sampling (SDS), which align avatars
with pseudo ground-truth outputs from the diffusion model. However, directly
distilling 4D avatars from video diffusion often leads to over-smooth results
due to spatial and temporal inconsistencies in the generated video. To address
this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial
and temporal consistency dataset for 4D avatar reconstruction using the video
diffusion model. Specifically, Zero-1-to-A iteratively constructs video
datasets and optimizes animatable avatars in a progressive manner, ensuring
that avatar quality increases smoothly and consistently throughout the learning
process. This progressive learning involves two stages: (1) Spatial Consistency
Learning fixes expressions and learns from front-to-side views, and (2)
Temporal Consistency Learning fixes views and learns from relaxed to
exaggerated expressions, generating 4D avatars in a simple-to-complex manner.
Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation
quality, and rendering speed compared to existing diffusion-based methods,
providing a solution for lifelike avatar creation. Code is publicly available
at: https://github.com/ZhenglinZhou/Zero-1-to-A.Summary
AI-Generated Summary