TekstToon: Real-Time Tekst Toonify Hoofd Avatar vanuit Enkele Video
TextToon: Real-Time Text Toonify Head Avatar from Single Video
September 23, 2024
Auteurs: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI
Samenvatting
Wij stellen TextToon voor, een methode om een bestuurbaar getoonificeerd avatar te genereren. Gegeven een korte monoculair videosequentie en een geschreven instructie over de avatarstijl, kan ons model een getoonificeerd avatar van hoge kwaliteit genereren die in realtime kan worden bestuurd door een andere video met willekeurige identiteiten. Bestaande gerelateerde werken vertrouwen zwaar op multi-view modellering om geometrie te herstellen via textuur insluitingen, gepresenteerd op een statische manier, wat leidt tot beperkingen in de controle. De multi-view video-invoer maakt het ook moeilijk om deze modellen in real-world toepassingen in te zetten. Om deze problemen aan te pakken, nemen we een conditionele insluiting Tri-plane aan om realistische en gestileerde gezichtsrepresentaties te leren in een Gaussisch vervormingsveld. Daarnaast breiden we de stiliseringsmogelijkheden van 3D Gaussisch Splatting uit door een adaptief pixel-vertalingsneuraal netwerk te introduceren en gebruik te maken van patch-bewuste contrastieve leren om hoogwaardige afbeeldingen te bereiken. Om ons werk naar consumententoepassingen te brengen, ontwikkelen we een realtime systeem dat kan werken met 48 FPS op een GPU-machine en 15-18 FPS op een mobiele machine. Uitgebreide experimenten tonen de doeltreffendheid van onze benadering aan bij het genereren van getoonificeerde avatars ten opzichte van bestaande methoden op het gebied van kwaliteit en real-time animatie. Raadpleeg onze projectpagina voor meer details: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given
a short monocular video sequence and a written instruction about the avatar
style, our model can generate a high-fidelity toonified avatar that can be
driven in real-time by another video with arbitrary identities. Existing
related works heavily rely on multi-view modeling to recover geometry via
texture embeddings, presented in a static manner, leading to control
limitations. The multi-view video input also makes it difficult to deploy these
models in real-world applications. To address these issues, we adopt a
conditional embedding Tri-plane to learn realistic and stylized facial
representations in a Gaussian deformation field. Additionally, we expand the
stylization capabilities of 3D Gaussian Splatting by introducing an adaptive
pixel-translation neural network and leveraging patch-aware contrastive
learning to achieve high-quality images. To push our work into consumer
applications, we develop a real-time system that can operate at 48 FPS on a GPU
machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate
the efficacy of our approach in generating textual avatars over existing
methods in terms of quality and real-time animation. Please refer to our
project page for more details: https://songluchuan.github.io/TextToon/.Summary
AI-Generated Summary