TextToon: Avatarización en tiempo real de la cabeza a partir de un solo video de texto

Resumen

Proponemos TextToon, un método para generar un avatar toonificado conducible. Dada una secuencia corta de video monocular y una instrucción escrita sobre el estilo del avatar, nuestro modelo puede generar un avatar toonificado de alta fidelidad que puede ser conducido en tiempo real por otro video con identidades arbitrarias. Los trabajos relacionados existentes dependen en gran medida de la modelización multi-vista para recuperar la geometría a través de incrustaciones de textura, presentadas de manera estática, lo que conduce a limitaciones de control. La entrada de video multi-vista también dificulta desplegar estos modelos en aplicaciones del mundo real. Para abordar estos problemas, adoptamos un Tri-plano de incrustación condicional para aprender representaciones faciales realistas y estilizadas en un campo de deformación gaussiano. Además, ampliamos las capacidades de estilización de Splatting gaussiano 3D mediante la introducción de una red neuronal de traducción de píxeles adaptativa y aprovechando el aprendizaje contrastivo consciente de parches para lograr imágenes de alta calidad. Para llevar nuestro trabajo a aplicaciones de consumo, desarrollamos un sistema en tiempo real que puede operar a 48 FPS en una máquina con GPU y a 15-18 FPS en una máquina móvil. Experimentos extensos demuestran la eficacia de nuestro enfoque en la generación de avatares textuales en comparación con los métodos existentes en términos de calidad y animación en tiempo real. Consulte nuestra página del proyecto para obtener más detalles: https://songluchuan.github.io/TextToon/.

English

We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

TextToon: Avatarización en tiempo real de la cabeza a partir de un solo video de texto

TextToon: Real-Time Text Toonify Head Avatar from Single Video

Resumen

Support