ChatPaper.aiChatPaper

DAWN: Avatar de Marco Dinámico con Marco de Difusión No Autoregresivo para la Generación de Vídeos de Cabeza Parlante

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

October 17, 2024
Autores: Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan
cs.AI

Resumen

La generación de cabezas parlantes tiene como objetivo producir videos de cabezas parlantes vívidos y realistas a partir de un solo retrato y un clip de audio de voz. Aunque se ha avanzado significativamente en la generación de cabezas parlantes basada en difusión, casi todos los métodos dependen de estrategias autoregresivas, que sufren de una utilización limitada del contexto más allá del paso de generación actual, acumulación de errores y una velocidad de generación más lenta. Para abordar estos desafíos, presentamos DAWN (Avatar de cuadro dinámico con difusión no autoregresiva), un marco que permite la generación de secuencias de video de longitud dinámica de una sola vez. Específicamente, consta de dos componentes principales: (1) generación holística de dinámicas faciales impulsada por audio en el espacio de movimiento latente, y (2) generación de postura de cabeza y parpadeo impulsada por audio. Experimentos extensos demuestran que nuestro método genera videos auténticos y vívidos con movimientos precisos de labios, y movimientos naturales de postura/parpadeo. Además, con una alta velocidad de generación, DAWN posee fuertes capacidades de extrapolación, asegurando la producción estable de videos largos de alta calidad. Estos resultados resaltan la considerable promesa y el impacto potencial de DAWN en el campo de la generación de videos de cabezas parlantes. Además, esperamos que DAWN estimule una mayor exploración de enfoques no autoregresivos en modelos de difusión. Nuestro código estará disponible públicamente en https://github.com/Hanbo-Cheng/DAWN-pytorch.
English
Talking head generation intends to produce vivid and realistic talking head videos from a single portrait and speech audio clip. Although significant progress has been made in diffusion-based talking head generation, almost all methods rely on autoregressive strategies, which suffer from limited context utilization beyond the current generation step, error accumulation, and slower generation speed. To address these challenges, we present DAWN (Dynamic frame Avatar With Non-autoregressive diffusion), a framework that enables all-at-once generation of dynamic-length video sequences. Specifically, it consists of two main components: (1) audio-driven holistic facial dynamics generation in the latent motion space, and (2) audio-driven head pose and blink generation. Extensive experiments demonstrate that our method generates authentic and vivid videos with precise lip motions, and natural pose/blink movements. Additionally, with a high generation speed, DAWN possesses strong extrapolation capabilities, ensuring the stable production of high-quality long videos. These results highlight the considerable promise and potential impact of DAWN in the field of talking head video generation. Furthermore, we hope that DAWN sparks further exploration of non-autoregressive approaches in diffusion models. Our code will be publicly at https://github.com/Hanbo-Cheng/DAWN-pytorch.

Summary

AI-Generated Summary

PDF122November 16, 2024