ChatPaper.aiChatPaper

TextToon: Echtzeit-Text-Toonify-Head-Avatar aus einem einzigen Video

TextToon: Real-Time Text Toonify Head Avatar from Single Video

September 23, 2024
Autoren: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI

Zusammenfassung

Wir schlagen TextToon vor, eine Methode zur Generierung eines steuerbaren toonifizierten Avatars. Basierend auf einer kurzen monokularen Videosequenz und einer schriftlichen Anleitung zum Avatar-Stil kann unser Modell einen hochwertigen toonifizierten Avatar generieren, der in Echtzeit durch ein anderes Video mit beliebigen Identitäten gesteuert werden kann. Bestehende verwandte Arbeiten stützen sich stark auf die Mehr-Ansichts-Modellierung zur Wiederherstellung der Geometrie über Textur-Einbettungen, die statisch präsentiert werden und zu Steuerungsbeschränkungen führen. Die Mehr-Ansichts-Videoeingabe erschwert auch die Bereitstellung dieser Modelle in realen Anwendungen. Um diese Probleme anzugehen, übernehmen wir ein bedingtes Einbettungs-Tri-Plane, um realistische und stilisierte Gesichtsrepräsentationen in einem Gaußschen Deformationsfeld zu erlernen. Darüber hinaus erweitern wir die Stilisierungsfähigkeiten des 3D Gaußschen Splatting, indem wir ein adaptives Pixel-Translations-Neuronales Netzwerk einführen und patch-bewusstes kontrastives Lernen nutzen, um hochwertige Bilder zu erzielen. Um unsere Arbeit in Verbraucheranwendungen voranzutreiben, entwickeln wir ein Echtzeitsystem, das auf einer GPU-Maschine mit 48 FPS und auf einer mobilen Maschine mit 15-18 FPS betrieben werden kann. Umfangreiche Experimente zeigen die Wirksamkeit unseres Ansatzes bei der Generierung von textuellen Avataren im Vergleich zu bestehenden Methoden hinsichtlich Qualität und Echtzeit-Animation. Bitte besuchen Sie unsere Projektseite für weitere Details: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

Summary

AI-Generated Summary

PDF83November 16, 2024