TextToon: Преобразование текста в анимированный аватар в реальном времени по видео.

Аннотация

Мы предлагаем TextToon, метод генерации управляемого анимационного аватара. Учитывая короткую видеопоследовательность с монокулярным видом и письменную инструкцию о стиле аватара, наша модель может создавать высококачественный анимационный аватар, который может быть управляем в реальном времени другим видео с произвольными идентичностями. Существующие связанные работы тяжело полагаются на многоплоскостное моделирование для восстановления геометрии через текстурные вложения, представленные статически, что приводит к ограничениям управления. Многоплоскостной видеовход также затрудняет развертывание этих моделей в приложениях реального мира. Для решения этих проблем мы принимаем условное встраивание Три-плоскости для изучения реалистичных и стилизованных лицевых представлений в поле гауссовского искажения. Кроме того, мы расширяем возможности стилизации 3D Гауссовского Сплетения, представив адаптивную нейронную сеть пиксельного сдвига и используя патч-осведомленное контрастное обучение для достижения изображений высокого качества. Для внедрения нашей работы в потребительские приложения мы разработали систему реального времени, способную работать со скоростью 48 кадров в секунду на машине с GPU и 15-18 кадров в секунду на мобильной машине. Обширные эксперименты демонстрируют эффективность нашего подхода в создании текстовых аватаров по сравнению с существующими методами в плане качества и анимации в реальном времени. Пожалуйста, обратитесь к нашей странице проекта для получения более подробной информации: https://songluchuan.github.io/TextToon/.

English

We propose TextToon, a method to generate a drivable toonified avatar. Given a short monocular video sequence and a written instruction about the avatar style, our model can generate a high-fidelity toonified avatar that can be driven in real-time by another video with arbitrary identities. Existing related works heavily rely on multi-view modeling to recover geometry via texture embeddings, presented in a static manner, leading to control limitations. The multi-view video input also makes it difficult to deploy these models in real-world applications. To address these issues, we adopt a conditional embedding Tri-plane to learn realistic and stylized facial representations in a Gaussian deformation field. Additionally, we expand the stylization capabilities of 3D Gaussian Splatting by introducing an adaptive pixel-translation neural network and leveraging patch-aware contrastive learning to achieve high-quality images. To push our work into consumer applications, we develop a real-time system that can operate at 48 FPS on a GPU machine and 15-18 FPS on a mobile machine. Extensive experiments demonstrate the efficacy of our approach in generating textual avatars over existing methods in terms of quality and real-time animation. Please refer to our project page for more details: https://songluchuan.github.io/TextToon/.

TextToon: Преобразование текста в анимированный аватар в реальном времени по видео.

TextToon: Real-Time Text Toonify Head Avatar from Single Video

Аннотация

Support