ChatPaper.aiChatPaper

AlteredAvatar: 高速スタイル適応による動的3Dアバターのスタイライズ

AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation

May 30, 2023
著者: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI

要旨

本論文では、動的な3Dアバターを新しいスタイルの任意のテキスト記述に迅速に適応させる手法を提案する。既存のアバタースタイライゼーション手法の中でも、直接最適化法は任意のスタイルに対して優れた結果を生成できるが、処理速度が遅いという欠点がある。さらに、新しい入力ごとに最適化プロセスを一からやり直す必要がある。一方、大規模なスタイル画像データセットで訓練されたフィードフォワードネットワークを使用した高速近似法は、新しい入力に対して迅速に結果を生成できるが、新しいスタイルへの汎化性能が低く、品質も不十分である。そこで我々は、メタ学習フレームワークを用いてこれら2つのアプローチを組み合わせた新しい手法「AlteredAvatar」を検討する。内側のループでは、モデルは単一のターゲットスタイルにうまく適合するように最適化する方法を学習し、外側のループでは、モデルは多くのスタイルにわたって効率的にスタイライズする方法を学習する。訓練後、AlteredAvatarは、テキスト、参照画像、またはその両方を使用して与えられる新しいスタイルに、少数の更新ステップで迅速に適応できる初期化を学習する。我々は、AlteredAvatarが速度、柔軟性、品質の良いバランスを達成しつつ、広範囲の新しい視点や表情にわたって一貫性を維持できることを示す。
English
This paper presents a method that can quickly adapt dynamic 3D avatars to arbitrary text descriptions of novel styles. Among existing approaches for avatar stylization, direct optimization methods can produce excellent results for arbitrary styles but they are unpleasantly slow. Furthermore, they require redoing the optimization process from scratch for every new input. Fast approximation methods using feed-forward networks trained on a large dataset of style images can generate results for new inputs quickly, but tend not to generalize well to novel styles and fall short in quality. We therefore investigate a new approach, AlteredAvatar, that combines those two approaches using the meta-learning framework. In the inner loop, the model learns to optimize to match a single target style well; while in the outer loop, the model learns to stylize efficiently across many styles. After training, AlteredAvatar learns an initialization that can quickly adapt within a small number of update steps to a novel style, which can be given using texts, a reference image, or a combination of both. We show that AlteredAvatar can achieve a good balance between speed, flexibility and quality, while maintaining consistency across a wide range of novel views and facial expressions.
PDF20December 15, 2024