TextToon : Avatar de tête Toonify en temps réel à partir d'une seule vidéo
TextToon: Real-Time Text Toonify Head Avatar from Single Video
September 23, 2024
Auteurs: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI
Résumé
Nous proposons TextToon, une méthode pour générer un avatar toonifié pilotable. En utilisant une courte séquence vidéo monoculaire et des instructions écrites sur le style de l'avatar, notre modèle peut générer un avatar toonifié de haute fidélité qui peut être piloté en temps réel par une autre vidéo avec des identités arbitraires. Les travaux connexes existants s'appuient fortement sur la modélisation multi-vue pour récupérer la géométrie via des plongements de texture, présentés de manière statique, ce qui entraîne des limitations de contrôle. L'entrée vidéo multi-vue rend également difficile le déploiement de ces modèles dans des applications du monde réel. Pour résoudre ces problèmes, nous adoptons un Tri-plan d'incorporation conditionnelle pour apprendre des représentations faciales réalistes et stylisées dans un champ de déformation gaussien. De plus, nous étendons les capacités de stylisation du Splatting gaussien 3D en introduisant un réseau neuronal d'adaptation de translation de pixel et en exploitant l'apprentissage contrastif conscient des patchs pour obtenir des images de haute qualité. Pour faire avancer notre travail dans les applications grand public, nous développons un système en temps réel qui peut fonctionner à 48 images par seconde sur une machine GPU et à 15-18 images par seconde sur une machine mobile. Des expériences approfondies démontrent l'efficacité de notre approche dans la génération d'avatars textuels par rapport aux méthodes existantes en termes de qualité et d'animation en temps réel. Veuillez vous référer à notre page de projet pour plus de détails: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given
a short monocular video sequence and a written instruction about the avatar
style, our model can generate a high-fidelity toonified avatar that can be
driven in real-time by another video with arbitrary identities. Existing
related works heavily rely on multi-view modeling to recover geometry via
texture embeddings, presented in a static manner, leading to control
limitations. The multi-view video input also makes it difficult to deploy these
models in real-world applications. To address these issues, we adopt a
conditional embedding Tri-plane to learn realistic and stylized facial
representations in a Gaussian deformation field. Additionally, we expand the
stylization capabilities of 3D Gaussian Splatting by introducing an adaptive
pixel-translation neural network and leveraging patch-aware contrastive
learning to achieve high-quality images. To push our work into consumer
applications, we develop a real-time system that can operate at 48 FPS on a GPU
machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate
the efficacy of our approach in generating textual avatars over existing
methods in terms of quality and real-time animation. Please refer to our
project page for more details: https://songluchuan.github.io/TextToon/.Summary
AI-Generated Summary