AlteredAvatar : Stylisation d'avatars 3D dynamiques avec adaptation rapide du style
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation
May 30, 2023
Auteurs: Thu Nguyen-Phuoc, Gabriel Schwartz, Yuting Ye, Stephen Lombardi, Lei Xiao
cs.AI
Résumé
Cet article présente une méthode permettant d'adapter rapidement des avatars 3D dynamiques à des descriptions textuelles arbitraires de styles nouveaux. Parmi les approches existantes pour la stylisation d'avatars, les méthodes d'optimisation directe peuvent produire d'excellents résultats pour des styles arbitraires, mais elles sont désagréablement lentes. De plus, elles nécessitent de recommencer le processus d'optimisation à zéro pour chaque nouvelle entrée. Les méthodes d'approximation rapide utilisant des réseaux feed-forward entraînés sur un grand ensemble de données d'images de style peuvent générer des résultats pour de nouvelles entrées rapidement, mais ont tendance à ne pas bien généraliser à des styles nouveaux et à manquer de qualité. Nous explorons donc une nouvelle approche, AlteredAvatar, qui combine ces deux méthodes en utilisant le cadre de méta-apprentissage. Dans la boucle interne, le modèle apprend à optimiser pour correspondre à un style cible unique de manière efficace ; tandis que dans la boucle externe, le modèle apprend à styliser efficacement pour de nombreux styles. Après l'entraînement, AlteredAvatar apprend une initialisation qui peut s'adapter rapidement en un petit nombre d'étapes de mise à jour à un style nouveau, qui peut être donné sous forme de texte, d'une image de référence, ou d'une combinaison des deux. Nous montrons qu'AlteredAvatar peut atteindre un bon équilibre entre vitesse, flexibilité et qualité, tout en maintenant la cohérence sur une large gamme de vues nouvelles et d'expressions faciales.
English
This paper presents a method that can quickly adapt dynamic 3D avatars to
arbitrary text descriptions of novel styles. Among existing approaches for
avatar stylization, direct optimization methods can produce excellent results
for arbitrary styles but they are unpleasantly slow. Furthermore, they require
redoing the optimization process from scratch for every new input. Fast
approximation methods using feed-forward networks trained on a large dataset of
style images can generate results for new inputs quickly, but tend not to
generalize well to novel styles and fall short in quality. We therefore
investigate a new approach, AlteredAvatar, that combines those two approaches
using the meta-learning framework. In the inner loop, the model learns to
optimize to match a single target style well; while in the outer loop, the
model learns to stylize efficiently across many styles. After training,
AlteredAvatar learns an initialization that can quickly adapt within a small
number of update steps to a novel style, which can be given using texts, a
reference image, or a combination of both. We show that AlteredAvatar can
achieve a good balance between speed, flexibility and quality, while
maintaining consistency across a wide range of novel views and facial
expressions.