TextToon: Avatarización en tiempo real de la cabeza a partir de un solo video de texto
TextToon: Real-Time Text Toonify Head Avatar from Single Video
September 23, 2024
Autores: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI
Resumen
Proponemos TextToon, un método para generar un avatar toonificado conducible. Dada una secuencia corta de video monocular y una instrucción escrita sobre el estilo del avatar, nuestro modelo puede generar un avatar toonificado de alta fidelidad que puede ser conducido en tiempo real por otro video con identidades arbitrarias. Los trabajos relacionados existentes dependen en gran medida de la modelización multi-vista para recuperar la geometría a través de incrustaciones de textura, presentadas de manera estática, lo que conduce a limitaciones de control. La entrada de video multi-vista también dificulta desplegar estos modelos en aplicaciones del mundo real. Para abordar estos problemas, adoptamos un Tri-plano de incrustación condicional para aprender representaciones faciales realistas y estilizadas en un campo de deformación gaussiano. Además, ampliamos las capacidades de estilización de Splatting gaussiano 3D mediante la introducción de una red neuronal de traducción de píxeles adaptativa y aprovechando el aprendizaje contrastivo consciente de parches para lograr imágenes de alta calidad. Para llevar nuestro trabajo a aplicaciones de consumo, desarrollamos un sistema en tiempo real que puede operar a 48 FPS en una máquina con GPU y a 15-18 FPS en una máquina móvil. Experimentos extensos demuestran la eficacia de nuestro enfoque en la generación de avatares textuales en comparación con los métodos existentes en términos de calidad y animación en tiempo real. Consulte nuestra página del proyecto para obtener más detalles: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given
a short monocular video sequence and a written instruction about the avatar
style, our model can generate a high-fidelity toonified avatar that can be
driven in real-time by another video with arbitrary identities. Existing
related works heavily rely on multi-view modeling to recover geometry via
texture embeddings, presented in a static manner, leading to control
limitations. The multi-view video input also makes it difficult to deploy these
models in real-world applications. To address these issues, we adopt a
conditional embedding Tri-plane to learn realistic and stylized facial
representations in a Gaussian deformation field. Additionally, we expand the
stylization capabilities of 3D Gaussian Splatting by introducing an adaptive
pixel-translation neural network and leveraging patch-aware contrastive
learning to achieve high-quality images. To push our work into consumer
applications, we develop a real-time system that can operate at 48 FPS on a GPU
machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate
the efficacy of our approach in generating textual avatars over existing
methods in terms of quality and real-time animation. Please refer to our
project page for more details: https://songluchuan.github.io/TextToon/.Summary
AI-Generated Summary