ChatPaper.aiChatPaper

TekstToon: Real-Time Tekst Toonify Hoofd Avatar vanuit Enkele Video

TextToon: Real-Time Text Toonify Head Avatar from Single Video

September 23, 2024
Auteurs: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI

Samenvatting

Wij stellen TextToon voor, een methode om een bestuurbaar getoonificeerd avatar te genereren. Gegeven een korte monoculair videosequentie en een geschreven instructie over de avatarstijl, kan ons model een getoonificeerd avatar van hoge kwaliteit genereren die in realtime kan worden bestuurd door een andere video met willekeurige identiteiten. Bestaande gerelateerde werken vertrouwen zwaar op multi-view modellering om geometrie te herstellen via textuur insluitingen, gepresenteerd op een statische manier, wat leidt tot beperkingen in de controle. De multi-view video-invoer maakt het ook moeilijk om deze modellen in real-world toepassingen in te zetten. Om deze problemen aan te pakken, nemen we een conditionele insluiting Tri-plane aan om realistische en gestileerde gezichtsrepresentaties te leren in een Gaussisch vervormingsveld. Daarnaast breiden we de stiliseringsmogelijkheden van 3D Gaussisch Splatting uit door een adaptief pixel-vertalingsneuraal netwerk te introduceren en gebruik te maken van patch-bewuste contrastieve leren om hoogwaardige afbeeldingen te bereiken. Om ons werk naar consumententoepassingen te brengen, ontwikkelen we een realtime systeem dat kan werken met 48 FPS op een GPU-machine en 15-18 FPS op een mobiele machine. Uitgebreide experimenten tonen de doeltreffendheid van onze benadering aan bij het genereren van getoonificeerde avatars ten opzichte van bestaande methoden op het gebied van kwaliteit en real-time animatie. Raadpleeg onze projectpagina voor meer details: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

Summary

AI-Generated Summary

PDF83November 16, 2024