EMO : Portrait Émotionnel Vivant - Génération de vidéos de portraits expressifs avec un modèle de diffusion audio-vers-vidéo sous conditions faibles
EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
February 27, 2024
Auteurs: Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo
cs.AI
Résumé
Dans ce travail, nous relevons le défi d'améliorer le réalisme et l'expressivité dans la génération de vidéos de têtes parlantes en nous concentrant sur la relation dynamique et nuancée entre les indices audio et les mouvements faciaux. Nous identifions les limites des techniques traditionnelles qui échouent souvent à capturer l'ensemble du spectre des expressions humaines et l'unicité des styles faciaux individuels. Pour résoudre ces problèmes, nous proposons EMO, un nouveau cadre qui utilise une approche de synthèse directe audio-vers-vidéo, contournant le besoin de modèles 3D intermédiaires ou de points de repère faciaux. Notre méthode garantit des transitions fluides entre les images et une préservation cohérente de l'identité tout au long de la vidéo, aboutissant à des animations hautement expressives et réalistes. Les résultats expérimentaux démontrent qu'EMO est capable de produire non seulement des vidéos parlantes convaincantes, mais aussi des vidéos chantées dans divers styles, surpassant significativement les méthodologies existantes de pointe en termes d'expressivité et de réalisme.
English
In this work, we tackle the challenge of enhancing the realism and
expressiveness in talking head video generation by focusing on the dynamic and
nuanced relationship between audio cues and facial movements. We identify the
limitations of traditional techniques that often fail to capture the full
spectrum of human expressions and the uniqueness of individual facial styles.
To address these issues, we propose EMO, a novel framework that utilizes a
direct audio-to-video synthesis approach, bypassing the need for intermediate
3D models or facial landmarks. Our method ensures seamless frame transitions
and consistent identity preservation throughout the video, resulting in highly
expressive and lifelike animations. Experimental results demonsrate that EMO is
able to produce not only convincing speaking videos but also singing videos in
various styles, significantly outperforming existing state-of-the-art
methodologies in terms of expressiveness and realism.