Раскройте разнообразие поз: точная и эффективная неявная диффузия в пространстве-времени на основе ключевых точек для аудиоуправляемого говорящего портрета

Аннотация

Генерация говорящих портретов на основе одного изображения с управлением аудио играет ключевую роль в виртуальной реальности, создании цифровых людей и кинопроизводстве. Существующие подходы обычно делятся на методы, основанные на ключевых точках, и методы, основанные на изображениях. Методы, использующие ключевые точки, эффективно сохраняют идентичность персонажа, но испытывают трудности с захватом мелких деталей лица из-за ограниченного количества фиксированных точек в 3D Morphable Model. Кроме того, традиционные генеративные сети сталкиваются с проблемами в установлении причинно-следственной связи между аудио и ключевыми точками на ограниченных наборах данных, что приводит к низкому разнообразию поз. В отличие от этого, подходы, основанные на изображениях, создают высококачественные портреты с разнообразными деталями с использованием диффузионных сетей, но страдают от искажения идентичности и высоких вычислительных затрат. В данной работе мы предлагаем KDTalker — первую структуру, объединяющую неконтролируемые неявные 3D ключевые точки с пространственно-временной диффузионной моделью. Используя неконтролируемые неявные 3D ключевые точки, KDTalker адаптирует плотность информации о лице, позволяя диффузионному процессу моделировать разнообразные позы головы и гибко захватывать мелкие детали лица. Специально разработанный пространственно-временной механизм внимания обеспечивает точную синхронизацию губ, создавая временно согласованные, высококачественные анимации, одновременно повышая вычислительную эффективность. Экспериментальные результаты показывают, что KDTalker достигает передовых показателей в точности синхронизации губ, разнообразии поз головы и эффективности выполнения. Наш код доступен по адресу https://github.com/chaolongy/KDTalker.

English

Audio-driven single-image talking portrait generation plays a crucial role in virtual reality, digital human creation, and filmmaking. Existing approaches are generally categorized into keypoint-based and image-based methods. Keypoint-based methods effectively preserve character identity but struggle to capture fine facial details due to the fixed points limitation of the 3D Morphable Model. Moreover, traditional generative networks face challenges in establishing causality between audio and keypoints on limited datasets, resulting in low pose diversity. In contrast, image-based approaches produce high-quality portraits with diverse details using the diffusion network but incur identity distortion and expensive computational costs. In this work, we propose KDTalker, the first framework to combine unsupervised implicit 3D keypoint with a spatiotemporal diffusion model. Leveraging unsupervised implicit 3D keypoints, KDTalker adapts facial information densities, allowing the diffusion process to model diverse head poses and capture fine facial details flexibly. The custom-designed spatiotemporal attention mechanism ensures accurate lip synchronization, producing temporally consistent, high-quality animations while enhancing computational efficiency. Experimental results demonstrate that KDTalker achieves state-of-the-art performance regarding lip synchronization accuracy, head pose diversity, and execution efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.

Раскройте разнообразие поз: точная и эффективная неявная диффузия в пространстве-времени на основе ключевых точек для аудиоуправляемого говорящего портрета

Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

Аннотация

Support