Loopy : Apprivoiser l'avatar de portrait audio-commandé avec une dépendance de mouvement à long terme
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency
September 4, 2024
Auteurs: Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
cs.AI
Résumé
Avec l'introduction des techniques de génération vidéo basées sur la diffusion, la génération vidéo humaine conditionnée par l'audio a récemment réalisé des avancées significatives à la fois en termes de naturel du mouvement et de synthèse des détails du portrait. En raison du contrôle limité des signaux audio dans la conduite du mouvement humain, les méthodes existantes ajoutent souvent des signaux spatiaux auxiliaires pour stabiliser les mouvements, ce qui peut compromettre le naturel et la liberté du mouvement. Dans cet article, nous proposons un modèle de diffusion vidéo conditionné uniquement par l'audio de bout en bout nommé Loopy. Plus précisément, nous avons conçu un module temporel inter- et intra-clip ainsi qu'un module audio-vers-latents, permettant au modèle d'exploiter les informations de mouvement à long terme des données pour apprendre des motifs de mouvement naturels et améliorer la corrélation mouvement audio-portrait. Cette méthode élimine le besoin de modèles de mouvement spatial spécifiés manuellement utilisés dans les méthodes existantes pour contraindre le mouvement pendant l'inférence. Des expériences approfondies montrent que Loopy surpasse les récents modèles de diffusion de portrait pilotés par l'audio, offrant des résultats plus réalistes et de haute qualité dans divers scénarios.
English
With the introduction of diffusion-based video generation techniques,
audio-conditioned human video generation has recently achieved significant
breakthroughs in both the naturalness of motion and the synthesis of portrait
details. Due to the limited control of audio signals in driving human motion,
existing methods often add auxiliary spatial signals to stabilize movements,
which may compromise the naturalness and freedom of motion. In this paper, we
propose an end-to-end audio-only conditioned video diffusion model named Loopy.
Specifically, we designed an inter- and intra-clip temporal module and an
audio-to-latents module, enabling the model to leverage long-term motion
information from the data to learn natural motion patterns and improving
audio-portrait movement correlation. This method removes the need for manually
specified spatial motion templates used in existing methods to constrain motion
during inference. Extensive experiments show that Loopy outperforms recent
audio-driven portrait diffusion models, delivering more lifelike and
high-quality results across various scenarios.Summary
AI-Generated Summary