TextToon: Avatarização de Cabeça em Estilo Toon em Tempo Real a partir de um Único Vídeo
TextToon: Real-Time Text Toonify Head Avatar from Single Video
September 23, 2024
Autores: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI
Resumo
Propomos o TextToon, um método para gerar um avatar toonificado dirigível. Dada uma sequência curta de vídeo monocular e uma instrução escrita sobre o estilo do avatar, nosso modelo pode gerar um avatar toonificado de alta fidelidade que pode ser controlado em tempo real por outro vídeo com identidades arbitrárias. Trabalhos relacionados existentes dependem fortemente da modelagem multi-visão para recuperar a geometria por meio de incorporações de textura, apresentadas de forma estática, o que leva a limitações de controle. A entrada de vídeo multi-visão também torna difícil implantar esses modelos em aplicações do mundo real. Para lidar com essas questões, adotamos um Tri-plano de incorporação condicional para aprender representações faciais realistas e estilizadas em um campo de deformação gaussiano. Além disso, expandimos as capacidades de estilização do Splatting Gaussiano 3D introduzindo uma rede neural de tradução de pixels adaptativa e aproveitando o aprendizado contrastivo consciente de patches para obter imagens de alta qualidade. Para levar nosso trabalho para aplicações de consumo, desenvolvemos um sistema em tempo real que pode operar a 48 FPS em uma máquina GPU e 15-18 FPS em uma máquina móvel. Experimentos extensivos demonstram a eficácia de nossa abordagem na geração de avatares textuais em relação aos métodos existentes em termos de qualidade e animação em tempo real. Consulte nossa página do projeto para mais detalhes: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given
a short monocular video sequence and a written instruction about the avatar
style, our model can generate a high-fidelity toonified avatar that can be
driven in real-time by another video with arbitrary identities. Existing
related works heavily rely on multi-view modeling to recover geometry via
texture embeddings, presented in a static manner, leading to control
limitations. The multi-view video input also makes it difficult to deploy these
models in real-world applications. To address these issues, we adopt a
conditional embedding Tri-plane to learn realistic and stylized facial
representations in a Gaussian deformation field. Additionally, we expand the
stylization capabilities of 3D Gaussian Splatting by introducing an adaptive
pixel-translation neural network and leveraging patch-aware contrastive
learning to achieve high-quality images. To push our work into consumer
applications, we develop a real-time system that can operate at 48 FPS on a GPU
machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate
the efficacy of our approach in generating textual avatars over existing
methods in terms of quality and real-time animation. Please refer to our
project page for more details: https://songluchuan.github.io/TextToon/.Summary
AI-Generated Summary