ChatPaper.aiChatPaper

Zero-1-to-A: 비디오 확산 모델을 활용한 단일 이미지에서 애니메이션 가능한 헤드 아바타로의 제로샷 변환

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

March 20, 2025
저자: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI

초록

애니메이션 가능한 헤드 아바타 생성은 일반적으로 훈련을 위해 방대한 데이터를 필요로 합니다. 이러한 데이터 요구량을 줄이기 위한 자연스러운 해결책은, 사전 훈련된 확산 모델과 점수 증류 샘플링(SDS)과 같은 기존의 데이터가 필요 없는 정적 아바타 생성 방법을 활용하는 것입니다. 이 방법은 확산 모델에서 생성된 가짜 ground-truth 출력과 아바타를 정렬합니다. 그러나 비디오 확산에서 직접 4D 아바타를 증류하는 경우, 생성된 비디오의 공간적 및 시간적 불일치로 인해 과도하게 매끄러운 결과가 나올 수 있습니다. 이 문제를 해결하기 위해, 우리는 비디오 확산 모델을 사용하여 4D 아바타 재구성을 위한 공간적 및 시간적 일관성 데이터셋을 합성하는 강력한 방법인 Zero-1-to-A를 제안합니다. 구체적으로, Zero-1-to-A는 비디오 데이터셋을 반복적으로 구성하고 애니메이션 가능한 아바타를 점진적으로 최적화하여, 학습 과정 전반에 걸쳐 아바타 품질이 부드럽고 일관되게 향상되도록 합니다. 이 점진적 학습은 두 단계로 이루어집니다: (1) 공간적 일관성 학습은 표정을 고정하고 정면에서 측면까지의 뷰를 학습하며, (2) 시간적 일관성 학습은 뷰를 고정하고 여유로운 표정에서 과장된 표정까지 학습하여, 단순한 것에서 복잡한 것으로 4D 아바타를 생성합니다. 광범위한 실험을 통해 Zero-1-to-A가 기존의 확산 기반 방법들에 비해 충실도, 애니메이션 품질, 렌더링 속도를 개선하며, 생생한 아바타 생성에 대한 해결책을 제공함을 입증했습니다. 코드는 https://github.com/ZhenglinZhou/Zero-1-to-A에서 공개되어 있습니다.
English
Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.
PDF102March 21, 2025