AlteredAvatar : Stylisation d'avatars 3D dynamiques avec adaptation rapide du style

Résumé

Cet article présente une méthode permettant d'adapter rapidement des avatars 3D dynamiques à des descriptions textuelles arbitraires de styles nouveaux. Parmi les approches existantes pour la stylisation d'avatars, les méthodes d'optimisation directe peuvent produire d'excellents résultats pour des styles arbitraires, mais elles sont désagréablement lentes. De plus, elles nécessitent de recommencer le processus d'optimisation à zéro pour chaque nouvelle entrée. Les méthodes d'approximation rapide utilisant des réseaux feed-forward entraînés sur un grand ensemble de données d'images de style peuvent générer des résultats pour de nouvelles entrées rapidement, mais ont tendance à ne pas bien généraliser à des styles nouveaux et à manquer de qualité. Nous explorons donc une nouvelle approche, AlteredAvatar, qui combine ces deux méthodes en utilisant le cadre de méta-apprentissage. Dans la boucle interne, le modèle apprend à optimiser pour correspondre à un style cible unique de manière efficace ; tandis que dans la boucle externe, le modèle apprend à styliser efficacement pour de nombreux styles. Après l'entraînement, AlteredAvatar apprend une initialisation qui peut s'adapter rapidement en un petit nombre d'étapes de mise à jour à un style nouveau, qui peut être donné sous forme de texte, d'une image de référence, ou d'une combinaison des deux. Nous montrons qu'AlteredAvatar peut atteindre un bon équilibre entre vitesse, flexibilité et qualité, tout en maintenant la cohérence sur une large gamme de vues nouvelles et d'expressions faciales.

English

This paper presents a method that can quickly adapt dynamic 3D avatars to arbitrary text descriptions of novel styles. Among existing approaches for avatar stylization, direct optimization methods can produce excellent results for arbitrary styles but they are unpleasantly slow. Furthermore, they require redoing the optimization process from scratch for every new input. Fast approximation methods using feed-forward networks trained on a large dataset of style images can generate results for new inputs quickly, but tend not to generalize well to novel styles and fall short in quality. We therefore investigate a new approach, AlteredAvatar, that combines those two approaches using the meta-learning framework. In the inner loop, the model learns to optimize to match a single target style well; while in the outer loop, the model learns to stylize efficiently across many styles. After training, AlteredAvatar learns an initialization that can quickly adapt within a small number of update steps to a novel style, which can be given using texts, a reference image, or a combination of both. We show that AlteredAvatar can achieve a good balance between speed, flexibility and quality, while maintaining consistency across a wide range of novel views and facial expressions.

AlteredAvatar : Stylisation d'avatars 3D dynamiques avec adaptation rapide du style

AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation

Résumé

Support