MotionLCM : Génération de mouvements contrôlable en temps réel via un modèle de cohérence latente
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
April 30, 2024
Auteurs: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
cs.AI
Résumé
Ce travail présente MotionLCM, étendant la génération de mouvements contrôlables à un niveau en temps réel. Les méthodes existantes pour le contrôle spatial dans la génération de mouvements conditionnés par texte souffrent d'une inefficacité significative en termes de temps d'exécution. Pour résoudre ce problème, nous proposons d'abord le modèle de cohérence latente pour les mouvements (MotionLCM) pour la génération de mouvements, en nous appuyant sur le modèle de diffusion latente (MLD). En utilisant une inférence en une étape (ou quelques étapes), nous améliorons encore l'efficacité en temps d'exécution du modèle de diffusion latente pour la génération de mouvements. Pour garantir une contrôlabilité efficace, nous intégrons un ControlNet pour les mouvements dans l'espace latent de MotionLCM et permettons à des signaux de contrôle explicites (par exemple, la trajectoire du bassin) dans l'espace de mouvements standard de contrôler directement le processus de génération, similaire au contrôle d'autres modèles de diffusion sans latence pour la génération de mouvements. En employant ces techniques, notre approche peut générer des mouvements humains avec du texte et des signaux de contrôle en temps réel. Les résultats expérimentaux démontrent les capacités remarquables de génération et de contrôle de MotionLCM tout en maintenant une efficacité en temps d'exécution en temps réel.
English
This work introduces MotionLCM, extending controllable motion generation to a
real-time level. Existing methods for spatial control in text-conditioned
motion generation suffer from significant runtime inefficiency. To address this
issue, we first propose the motion latent consistency model (MotionLCM) for
motion generation, building upon the latent diffusion model (MLD). By employing
one-step (or few-step) inference, we further improve the runtime efficiency of
the motion latent diffusion model for motion generation. To ensure effective
controllability, we incorporate a motion ControlNet within the latent space of
MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the
vanilla motion space to control the generation process directly, similar to
controlling other latent-free diffusion models for motion generation. By
employing these techniques, our approach can generate human motions with text
and control signals in real-time. Experimental results demonstrate the
remarkable generation and controlling capabilities of MotionLCM while
maintaining real-time runtime efficiency.Summary
AI-Generated Summary