TextToon: Echtzeit-Text-Toonify-Head-Avatar aus einem einzigen Video
TextToon: Real-Time Text Toonify Head Avatar from Single Video
September 23, 2024
Autoren: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI
Zusammenfassung
Wir schlagen TextToon vor, eine Methode zur Generierung eines steuerbaren toonifizierten Avatars. Basierend auf einer kurzen monokularen Videosequenz und einer schriftlichen Anleitung zum Avatar-Stil kann unser Modell einen hochwertigen toonifizierten Avatar generieren, der in Echtzeit durch ein anderes Video mit beliebigen Identitäten gesteuert werden kann. Bestehende verwandte Arbeiten stützen sich stark auf die Mehr-Ansichts-Modellierung zur Wiederherstellung der Geometrie über Textur-Einbettungen, die statisch präsentiert werden und zu Steuerungsbeschränkungen führen. Die Mehr-Ansichts-Videoeingabe erschwert auch die Bereitstellung dieser Modelle in realen Anwendungen. Um diese Probleme anzugehen, übernehmen wir ein bedingtes Einbettungs-Tri-Plane, um realistische und stilisierte Gesichtsrepräsentationen in einem Gaußschen Deformationsfeld zu erlernen. Darüber hinaus erweitern wir die Stilisierungsfähigkeiten des 3D Gaußschen Splatting, indem wir ein adaptives Pixel-Translations-Neuronales Netzwerk einführen und patch-bewusstes kontrastives Lernen nutzen, um hochwertige Bilder zu erzielen. Um unsere Arbeit in Verbraucheranwendungen voranzutreiben, entwickeln wir ein Echtzeitsystem, das auf einer GPU-Maschine mit 48 FPS und auf einer mobilen Maschine mit 15-18 FPS betrieben werden kann. Umfangreiche Experimente zeigen die Wirksamkeit unseres Ansatzes bei der Generierung von textuellen Avataren im Vergleich zu bestehenden Methoden hinsichtlich Qualität und Echtzeit-Animation. Bitte besuchen Sie unsere Projektseite für weitere Details: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given
a short monocular video sequence and a written instruction about the avatar
style, our model can generate a high-fidelity toonified avatar that can be
driven in real-time by another video with arbitrary identities. Existing
related works heavily rely on multi-view modeling to recover geometry via
texture embeddings, presented in a static manner, leading to control
limitations. The multi-view video input also makes it difficult to deploy these
models in real-world applications. To address these issues, we adopt a
conditional embedding Tri-plane to learn realistic and stylized facial
representations in a Gaussian deformation field. Additionally, we expand the
stylization capabilities of 3D Gaussian Splatting by introducing an adaptive
pixel-translation neural network and leveraging patch-aware contrastive
learning to achieve high-quality images. To push our work into consumer
applications, we develop a real-time system that can operate at 48 FPS on a GPU
machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate
the efficacy of our approach in generating textual avatars over existing
methods in terms of quality and real-time animation. Please refer to our
project page for more details: https://songluchuan.github.io/TextToon/.Summary
AI-Generated Summary