Раскройте разнообразие поз: точная и эффективная неявная диффузия в пространстве-времени на основе ключевых точек для аудиоуправляемого говорящего портрета
Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait
March 17, 2025
Авторы: Chaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
cs.AI
Аннотация
Генерация говорящих портретов на основе одного изображения с управлением аудио играет ключевую роль в виртуальной реальности, создании цифровых людей и кинопроизводстве. Существующие подходы обычно делятся на методы, основанные на ключевых точках, и методы, основанные на изображениях. Методы, использующие ключевые точки, эффективно сохраняют идентичность персонажа, но испытывают трудности с захватом мелких деталей лица из-за ограниченного количества фиксированных точек в 3D Morphable Model. Кроме того, традиционные генеративные сети сталкиваются с проблемами в установлении причинно-следственной связи между аудио и ключевыми точками на ограниченных наборах данных, что приводит к низкому разнообразию поз. В отличие от этого, подходы, основанные на изображениях, создают высококачественные портреты с разнообразными деталями с использованием диффузионных сетей, но страдают от искажения идентичности и высоких вычислительных затрат. В данной работе мы предлагаем KDTalker — первую структуру, объединяющую неконтролируемые неявные 3D ключевые точки с пространственно-временной диффузионной моделью. Используя неконтролируемые неявные 3D ключевые точки, KDTalker адаптирует плотность информации о лице, позволяя диффузионному процессу моделировать разнообразные позы головы и гибко захватывать мелкие детали лица. Специально разработанный пространственно-временной механизм внимания обеспечивает точную синхронизацию губ, создавая временно согласованные, высококачественные анимации, одновременно повышая вычислительную эффективность. Экспериментальные результаты показывают, что KDTalker достигает передовых показателей в точности синхронизации губ, разнообразии поз головы и эффективности выполнения. Наш код доступен по адресу https://github.com/chaolongy/KDTalker.
English
Audio-driven single-image talking portrait generation plays a crucial role in
virtual reality, digital human creation, and filmmaking. Existing approaches
are generally categorized into keypoint-based and image-based methods.
Keypoint-based methods effectively preserve character identity but struggle to
capture fine facial details due to the fixed points limitation of the 3D
Morphable Model. Moreover, traditional generative networks face challenges in
establishing causality between audio and keypoints on limited datasets,
resulting in low pose diversity. In contrast, image-based approaches produce
high-quality portraits with diverse details using the diffusion network but
incur identity distortion and expensive computational costs. In this work, we
propose KDTalker, the first framework to combine unsupervised implicit 3D
keypoint with a spatiotemporal diffusion model. Leveraging unsupervised
implicit 3D keypoints, KDTalker adapts facial information densities, allowing
the diffusion process to model diverse head poses and capture fine facial
details flexibly. The custom-designed spatiotemporal attention mechanism
ensures accurate lip synchronization, producing temporally consistent,
high-quality animations while enhancing computational efficiency. Experimental
results demonstrate that KDTalker achieves state-of-the-art performance
regarding lip synchronization accuracy, head pose diversity, and execution
efficiency.Our codes are available at https://github.com/chaolongy/KDTalker.Summary
AI-Generated Summary