ChatPaper.aiChatPaper

TextToon: Avatarização de Cabeça em Estilo Toon em Tempo Real a partir de um Único Vídeo

TextToon: Real-Time Text Toonify Head Avatar from Single Video

September 23, 2024
Autores: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI

Resumo

Propomos o TextToon, um método para gerar um avatar toonificado dirigível. Dada uma sequência curta de vídeo monocular e uma instrução escrita sobre o estilo do avatar, nosso modelo pode gerar um avatar toonificado de alta fidelidade que pode ser controlado em tempo real por outro vídeo com identidades arbitrárias. Trabalhos relacionados existentes dependem fortemente da modelagem multi-visão para recuperar a geometria por meio de incorporações de textura, apresentadas de forma estática, o que leva a limitações de controle. A entrada de vídeo multi-visão também torna difícil implantar esses modelos em aplicações do mundo real. Para lidar com essas questões, adotamos um Tri-plano de incorporação condicional para aprender representações faciais realistas e estilizadas em um campo de deformação gaussiano. Além disso, expandimos as capacidades de estilização do Splatting Gaussiano 3D introduzindo uma rede neural de tradução de pixels adaptativa e aproveitando o aprendizado contrastivo consciente de patches para obter imagens de alta qualidade. Para levar nosso trabalho para aplicações de consumo, desenvolvemos um sistema em tempo real que pode operar a 48 FPS em uma máquina GPU e 15-18 FPS em uma máquina móvel. Experimentos extensivos demonstram a eficácia de nossa abordagem na geração de avatares textuais em relação aos métodos existentes em termos de qualidade e animação em tempo real. Consulte nossa página do projeto para mais detalhes: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

Summary

AI-Generated Summary

PDF83November 16, 2024