EMO : Portrait Émotionnel Vivant - Génération de vidéos de portraits expressifs avec un modèle de diffusion audio-vers-vidéo sous conditions faibles

papers.abstract

Dans ce travail, nous relevons le défi d'améliorer le réalisme et l'expressivité dans la génération de vidéos de têtes parlantes en nous concentrant sur la relation dynamique et nuancée entre les indices audio et les mouvements faciaux. Nous identifions les limites des techniques traditionnelles qui échouent souvent à capturer l'ensemble du spectre des expressions humaines et l'unicité des styles faciaux individuels. Pour résoudre ces problèmes, nous proposons EMO, un nouveau cadre qui utilise une approche de synthèse directe audio-vers-vidéo, contournant le besoin de modèles 3D intermédiaires ou de points de repère faciaux. Notre méthode garantit des transitions fluides entre les images et une préservation cohérente de l'identité tout au long de la vidéo, aboutissant à des animations hautement expressives et réalistes. Les résultats expérimentaux démontrent qu'EMO est capable de produire non seulement des vidéos parlantes convaincantes, mais aussi des vidéos chantées dans divers styles, surpassant significativement les méthodologies existantes de pointe en termes d'expressivité et de réalisme.

English

In this work, we tackle the challenge of enhancing the realism and expressiveness in talking head video generation by focusing on the dynamic and nuanced relationship between audio cues and facial movements. We identify the limitations of traditional techniques that often fail to capture the full spectrum of human expressions and the uniqueness of individual facial styles. To address these issues, we propose EMO, a novel framework that utilizes a direct audio-to-video synthesis approach, bypassing the need for intermediate 3D models or facial landmarks. Our method ensures seamless frame transitions and consistent identity preservation throughout the video, resulting in highly expressive and lifelike animations. Experimental results demonsrate that EMO is able to produce not only convincing speaking videos but also singing videos in various styles, significantly outperforming existing state-of-the-art methodologies in terms of expressiveness and realism.

EMO : Portrait Émotionnel Vivant - Génération de vidéos de portraits expressifs avec un modèle de diffusion audio-vers-vidéo sous conditions faibles

EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

papers.abstract

Support