TextToon : Avatar de tête Toonify en temps réel à partir d'une seule vidéo

papers.abstract

Nous proposons TextToon, une méthode pour générer un avatar toonifié pilotable. En utilisant une courte séquence vidéo monoculaire et des instructions écrites sur le style de l'avatar, notre modèle peut générer un avatar toonifié de haute fidélité qui peut être piloté en temps réel par une autre vidéo avec des identités arbitraires. Les travaux connexes existants s'appuient fortement sur la modélisation multi-vue pour récupérer la géométrie via des plongements de texture, présentés de manière statique, ce qui entraîne des limitations de contrôle. L'entrée vidéo multi-vue rend également difficile le déploiement de ces modèles dans des applications du monde réel. Pour résoudre ces problèmes, nous adoptons un Tri-plan d'incorporation conditionnelle pour apprendre des représentations faciales réalistes et stylisées dans un champ de déformation gaussien. De plus, nous étendons les capacités de stylisation du Splatting gaussien 3D en introduisant un réseau neuronal d'adaptation de translation de pixel et en exploitant l'apprentissage contrastif conscient des patchs pour obtenir des images de haute qualité. Pour faire avancer notre travail dans les applications grand public, nous développons un système en temps réel qui peut fonctionner à 48 images par seconde sur une machine GPU et à 15-18 images par seconde sur une machine mobile. Des expériences approfondies démontrent l'efficacité de notre approche dans la génération d'avatars textuels par rapport aux méthodes existantes en termes de qualité et d'animation en temps réel. Veuillez vous référer à notre page de projet pour plus de détails: https://songluchuan.github.io/TextToon/.

English

We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

TextToon : Avatar de tête Toonify en temps réel à partir d'une seule vidéo

TextToon: Real-Time Text Toonify Head Avatar from Single Video

papers.abstract

Support