AniPortrait : Synthèse réaliste d'animation de portraits pilotée par l'audio
AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
March 26, 2024
Auteurs: Huawei Wei, Zejun Yang, Zhisheng Wang
cs.AI
Résumé
Dans cette étude, nous proposons AniPortrait, un nouveau cadre pour générer des animations de haute qualité pilotées par l'audio et une image de portrait de référence. Notre méthodologie est divisée en deux étapes. Initialement, nous extrayons des représentations intermédiaires 3D à partir de l'audio et les projetons en une séquence de points de repère faciaux 2D. Ensuite, nous utilisons un modèle de diffusion robuste, couplé à un module de mouvement, pour convertir la séquence de points de repère en une animation de portrait photoréaliste et temporellement cohérente. Les résultats expérimentaux démontrent la supériorité d'AniPortrait en termes de naturalité faciale, de diversité des poses et de qualité visuelle, offrant ainsi une expérience perceptuelle améliorée. De plus, notre méthodologie présente un potentiel considérable en termes de flexibilité et de contrôlabilité, qui peut être efficacement appliqué dans des domaines tels que l'édition de mouvements faciaux ou le réenactment facial. Nous publions le code et les poids des modèles à l'adresse https://github.com/scutzzj/AniPortrait.
English
In this study, we propose AniPortrait, a novel framework for generating
high-quality animation driven by audio and a reference portrait image. Our
methodology is divided into two stages. Initially, we extract 3D intermediate
representations from audio and project them into a sequence of 2D facial
landmarks. Subsequently, we employ a robust diffusion model, coupled with a
motion module, to convert the landmark sequence into photorealistic and
temporally consistent portrait animation. Experimental results demonstrate the
superiority of AniPortrait in terms of facial naturalness, pose diversity, and
visual quality, thereby offering an enhanced perceptual experience. Moreover,
our methodology exhibits considerable potential in terms of flexibility and
controllability, which can be effectively applied in areas such as facial
motion editing or face reenactment. We release code and model weights at
https://github.com/scutzzj/AniPortraitSummary
AI-Generated Summary