TextToon: Преобразование текста в анимированный аватар в реальном времени по видео.
TextToon: Real-Time Text Toonify Head Avatar from Single Video
September 23, 2024
Авторы: Luchuan Song, Lele Chen, Celong Liu, Pinxin Liu, Chenliang Xu
cs.AI
Аннотация
Мы предлагаем TextToon, метод генерации управляемого анимационного аватара. Учитывая короткую видеопоследовательность с монокулярным видом и письменную инструкцию о стиле аватара, наша модель может создавать высококачественный анимационный аватар, который может быть управляем в реальном времени другим видео с произвольными идентичностями. Существующие связанные работы тяжело полагаются на многоплоскостное моделирование для восстановления геометрии через текстурные вложения, представленные статически, что приводит к ограничениям управления. Многоплоскостной видеовход также затрудняет развертывание этих моделей в приложениях реального мира. Для решения этих проблем мы принимаем условное встраивание Три-плоскости для изучения реалистичных и стилизованных лицевых представлений в поле гауссовского искажения. Кроме того, мы расширяем возможности стилизации 3D Гауссовского Сплетения, представив адаптивную нейронную сеть пиксельного сдвига и используя патч-осведомленное контрастное обучение для достижения изображений высокого качества. Для внедрения нашей работы в потребительские приложения мы разработали систему реального времени, способную работать со скоростью 48 кадров в секунду на машине с GPU и 15-18 кадров в секунду на мобильной машине. Обширные эксперименты демонстрируют эффективность нашего подхода в создании текстовых аватаров по сравнению с существующими методами в плане качества и анимации в реальном времени. Пожалуйста, обратитесь к нашей странице проекта для получения более подробной информации: https://songluchuan.github.io/TextToon/.
English
We propose TextToon, a method to generate a drivable toonified avatar. Given
a short monocular video sequence and a written instruction about the avatar
style, our model can generate a high-fidelity toonified avatar that can be
driven in real-time by another video with arbitrary identities. Existing
related works heavily rely on multi-view modeling to recover geometry via
texture embeddings, presented in a static manner, leading to control
limitations. The multi-view video input also makes it difficult to deploy these
models in real-world applications. To address these issues, we adopt a
conditional embedding Tri-plane to learn realistic and stylized facial
representations in a Gaussian deformation field. Additionally, we expand the
stylization capabilities of 3D Gaussian Splatting by introducing an adaptive
pixel-translation neural network and leveraging patch-aware contrastive
learning to achieve high-quality images. To push our work into consumer
applications, we develop a real-time system that can operate at 48 FPS on a GPU
machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate
the efficacy of our approach in generating textual avatars over existing
methods in terms of quality and real-time animation. Please refer to our
project page for more details: https://songluchuan.github.io/TextToon/.Summary
AI-Generated Summary