AlteredAvatar: 高速スタイル適応による動的3Dアバターのスタイライズ
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation
May 30, 2023
著者: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI
要旨
本論文では、動的な3Dアバターを新しいスタイルの任意のテキスト記述に迅速に適応させる手法を提案する。既存のアバタースタイライゼーション手法の中でも、直接最適化法は任意のスタイルに対して優れた結果を生成できるが、処理速度が遅いという欠点がある。さらに、新しい入力ごとに最適化プロセスを一からやり直す必要がある。一方、大規模なスタイル画像データセットで訓練されたフィードフォワードネットワークを使用した高速近似法は、新しい入力に対して迅速に結果を生成できるが、新しいスタイルへの汎化性能が低く、品質も不十分である。そこで我々は、メタ学習フレームワークを用いてこれら2つのアプローチを組み合わせた新しい手法「AlteredAvatar」を検討する。内側のループでは、モデルは単一のターゲットスタイルにうまく適合するように最適化する方法を学習し、外側のループでは、モデルは多くのスタイルにわたって効率的にスタイライズする方法を学習する。訓練後、AlteredAvatarは、テキスト、参照画像、またはその両方を使用して与えられる新しいスタイルに、少数の更新ステップで迅速に適応できる初期化を学習する。我々は、AlteredAvatarが速度、柔軟性、品質の良いバランスを達成しつつ、広範囲の新しい視点や表情にわたって一貫性を維持できることを示す。
English
This paper presents a method that can quickly adapt dynamic 3D avatars to
arbitrary text descriptions of novel styles. Among existing approaches for
avatar stylization, direct optimization methods can produce excellent results
for arbitrary styles but they are unpleasantly slow. Furthermore, they require
redoing the optimization process from scratch for every new input. Fast
approximation methods using feed-forward networks trained on a large dataset of
style images can generate results for new inputs quickly, but tend not to
generalize well to novel styles and fall short in quality. We therefore
investigate a new approach, AlteredAvatar, that combines those two approaches
using the meta-learning framework. In the inner loop, the model learns to
optimize to match a single target style well; while in the outer loop, the
model learns to stylize efficiently across many styles. After training,
AlteredAvatar learns an initialization that can quickly adapt within a small
number of update steps to a novel style, which can be given using texts, a
reference image, or a combination of both. We show that AlteredAvatar can
achieve a good balance between speed, flexibility and quality, while
maintaining consistency across a wide range of novel views and facial
expressions.