ChatPaper.aiChatPaper

Zero-1-to-A: ビデオ拡散を用いたワンショット画像からアニメーション可能な頭部アバターへのゼロショット変換

Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

March 20, 2025
著者: Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng
cs.AI

要旨

アニメーション可能な頭部アバター生成は、通常、トレーニングに大量のデータを必要とします。データ要件を削減するための自然な解決策は、事前学習済みの拡散モデルとスコア蒸留サンプリング(SDS)を使用したデータ不要の静的アバター生成手法を活用することです。これらの手法は、拡散モデルからの疑似グラウンドトゥルース出力とアバターを整合させます。しかし、ビデオ拡散から直接4Dアバターを蒸留すると、生成されたビデオの空間的および時間的な不整合により、過度に滑らかな結果が生じることがあります。この問題に対処するため、我々はZero-1-to-Aを提案します。これは、ビデオ拡散モデルを使用して4Dアバター再構築のための空間的および時間的に一貫したデータセットを合成する堅牢な手法です。具体的には、Zero-1-to-Aはビデオデータセットを反復的に構築し、アニメーション可能なアバターを段階的に最適化することで、学習プロセス全体を通じてアバターの品質が滑らかかつ一貫して向上することを保証します。この段階的学習は2つのステージで構成されます:(1)空間的一貫性学習は表情を固定し、正面から側面のビューから学習し、(2)時間的一貫性学習はビューを固定し、リラックスした表情から誇張された表情へと学習し、4Dアバターを単純から複雑な方法で生成します。広範な実験により、Zero-1-to-Aが既存の拡散ベースの手法と比較して忠実度、アニメーション品質、レンダリング速度を向上させ、リアルなアバター作成のための解決策を提供することが示されています。コードはhttps://github.com/ZhenglinZhou/Zero-1-to-Aで公開されています。
English
Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.

Summary

AI-Generated Summary

PDF102March 21, 2025