TextToon: Avatar della testa Toonify in tempo reale da un singolo video

Abstract

Proponiamo TextToon, un metodo per generare un avatar toonificato guidabile. Dato un breve sequenza video monoculare e un'istruzione scritta sullo stile dell'avatar, il nostro modello può generare un avatar toonificato ad alta fedeltà che può essere guidato in tempo reale da un altro video con identità arbitrarie. I lavori correlati esistenti si basano pesantemente sulla modellazione multi-view per recuperare la geometria tramite embedding di texture, presentato in modo statico, con conseguenti limitazioni di controllo. L'input video multi-view rende anche difficile distribuire questi modelli in applicazioni reali. Per affrontare questi problemi, adottiamo un Tri-plane di embedding condizionale per apprendere rappresentazioni facciali realistiche e stilizzate in un campo di deformazione gaussiano. Inoltre, ampliamo le capacità di stilizzazione di Gaussian Splatting 3D introducendo una rete neurale di pixel-translation adattiva e sfruttando l'apprendimento contrastivo consapevole delle patch per ottenere immagini di alta qualità. Per portare avanti il nostro lavoro nelle applicazioni per consumatori, sviluppiamo un sistema in tempo reale che può operare a 48 FPS su una macchina GPU e a 15-18 FPS su una macchina mobile. Estesi esperimenti dimostrano l'efficacia del nostro approccio nella generazione di avatar testuali rispetto ai metodi esistenti in termini di qualità e animazione in tempo reale. Si prega di fare riferimento alla nostra pagina del progetto per ulteriori dettagli: https://songluchuan.github.io/TextToon/.

English

We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

TextToon: Avatar della testa Toonify in tempo reale da un singolo video

TextToon: Real-Time Text Toonify Head Avatar from Single Video

Abstract

Support