Loopy : Apprivoiser l'avatar de portrait audio-commandé avec une dépendance de mouvement à long termeLoopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion
Dependency
Avec l'introduction des techniques de génération vidéo basées sur la diffusion, la génération vidéo humaine conditionnée par l'audio a récemment réalisé des avancées significatives à la fois en termes de naturel du mouvement et de synthèse des détails du portrait. En raison du contrôle limité des signaux audio dans la conduite du mouvement humain, les méthodes existantes ajoutent souvent des signaux spatiaux auxiliaires pour stabiliser les mouvements, ce qui peut compromettre le naturel et la liberté du mouvement. Dans cet article, nous proposons un modèle de diffusion vidéo conditionné uniquement par l'audio de bout en bout nommé Loopy. Plus précisément, nous avons conçu un module temporel inter- et intra-clip ainsi qu'un module audio-vers-latents, permettant au modèle d'exploiter les informations de mouvement à long terme des données pour apprendre des motifs de mouvement naturels et améliorer la corrélation mouvement audio-portrait. Cette méthode élimine le besoin de modèles de mouvement spatial spécifiés manuellement utilisés dans les méthodes existantes pour contraindre le mouvement pendant l'inférence. Des expériences approfondies montrent que Loopy surpasse les récents modèles de diffusion de portrait pilotés par l'audio, offrant des résultats plus réalistes et de haute qualité dans divers scénarios.