MotionLCM: Generazione di Movimenti in Tempo Reale e Controllabile tramite Modello di Consistenza Latente
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
April 30, 2024
Autori: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
cs.AI
Abstract
Questo lavoro introduce MotionLCM, estendendo la generazione controllata di movimenti a un livello in tempo reale. I metodi esistenti per il controllo spaziale nella generazione di movimenti condizionati da testo soffrono di una significativa inefficienza in fase di esecuzione. Per affrontare questo problema, proponiamo innanzitutto il modello di consistenza latente per il movimento (MotionLCM) per la generazione di movimenti, basandoci sul modello di diffusione latente (MLD). Utilizzando un'inferenza a un passo (o pochi passi), miglioriamo ulteriormente l'efficienza in fase di esecuzione del modello di diffusione latente per la generazione di movimenti. Per garantire una controllabilità efficace, integriamo un ControlNet per il movimento all'interno dello spazio latente di MotionLCM e abilitiamo segnali di controllo espliciti (ad esempio, la traiettoria del bacino) nello spazio di movimento standard per controllare direttamente il processo di generazione, in modo simile al controllo di altri modelli di diffusione senza latenti per la generazione di movimenti. Utilizzando queste tecniche, il nostro approccio può generare movimenti umani con testo e segnali di controllo in tempo reale. I risultati sperimentali dimostrano le notevoli capacità di generazione e controllo di MotionLCM mantenendo un'efficienza in fase di esecuzione in tempo reale.
English
This work introduces MotionLCM, extending controllable motion generation to a
real-time level. Existing methods for spatial control in text-conditioned
motion generation suffer from significant runtime inefficiency. To address this
issue, we first propose the motion latent consistency model (MotionLCM) for
motion generation, building upon the latent diffusion model (MLD). By employing
one-step (or few-step) inference, we further improve the runtime efficiency of
the motion latent diffusion model for motion generation. To ensure effective
controllability, we incorporate a motion ControlNet within the latent space of
MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the
vanilla motion space to control the generation process directly, similar to
controlling other latent-free diffusion models for motion generation. By
employing these techniques, our approach can generate human motions with text
and control signals in real-time. Experimental results demonstrate the
remarkable generation and controlling capabilities of MotionLCM while
maintaining real-time runtime efficiency.