MotionLCM: Generación de Movimiento en Tiempo Real y Controlable mediante Modelos de Consistencia Latente
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
April 30, 2024
Autores: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
cs.AI
Resumen
Este trabajo presenta MotionLCM, extendiendo la generación controlable de movimiento a un nivel en tiempo real. Los métodos existentes para el control espacial en la generación de movimiento condicionado por texto sufren de una ineficiencia significativa en tiempo de ejecución. Para abordar este problema, primero proponemos el modelo de consistencia latente de movimiento (MotionLCM) para la generación de movimiento, basado en el modelo de difusión latente (MLD). Al emplear inferencia en un paso (o pocos pasos), mejoramos aún más la eficiencia en tiempo de ejecución del modelo de difusión latente de movimiento para la generación de movimiento. Para garantizar una controlabilidad efectiva, incorporamos un ControlNet de movimiento dentro del espacio latente de MotionLCM y habilitamos señales de control explícitas (por ejemplo, la trayectoria de la pelvis) en el espacio de movimiento básico para controlar directamente el proceso de generación, de manera similar a como se controlan otros modelos de difusión sin latencia para la generación de movimiento. Al emplear estas técnicas, nuestro enfoque puede generar movimientos humanos con texto y señales de control en tiempo real. Los resultados experimentales demuestran las notables capacidades de generación y control de MotionLCM mientras se mantiene una eficiencia en tiempo de ejecución en tiempo real.
English
This work introduces MotionLCM, extending controllable motion generation to a
real-time level. Existing methods for spatial control in text-conditioned
motion generation suffer from significant runtime inefficiency. To address this
issue, we first propose the motion latent consistency model (MotionLCM) for
motion generation, building upon the latent diffusion model (MLD). By employing
one-step (or few-step) inference, we further improve the runtime efficiency of
the motion latent diffusion model for motion generation. To ensure effective
controllability, we incorporate a motion ControlNet within the latent space of
MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the
vanilla motion space to control the generation process directly, similar to
controlling other latent-free diffusion models for motion generation. By
employing these techniques, our approach can generate human motions with text
and control signals in real-time. Experimental results demonstrate the
remarkable generation and controlling capabilities of MotionLCM while
maintaining real-time runtime efficiency.Summary
AI-Generated Summary