MotionLCM: Real-time Bestuurbare Bewegingsgeneratie via Latent Consistentiemodel
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
April 30, 2024
Auteurs: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
cs.AI
Samenvatting
Dit werk introduceert MotionLCM, waarmee controleerbare bewegingsgeneratie naar een realtime niveau wordt uitgebreid. Bestaande methoden voor ruimtelijke controle in tekstgeconditioneerde bewegingsgeneratie lijden onder aanzienlijke runtime-inefficiëntie. Om dit probleem aan te pakken, stellen we eerst het motion latent consistency model (MotionLCM) voor bewegingsgeneratie voor, gebaseerd op het latent diffusion model (MLD). Door gebruik te maken van éénstaps (of meerstaps) inferentie, verbeteren we verder de runtime-efficiëntie van het motion latent diffusion model voor bewegingsgeneratie. Om effectieve controleerbaarheid te garanderen, integreren we een motion ControlNet binnen de latente ruimte van MotionLCM en maken we expliciete controlesignalen (bijvoorbeeld bekkenbaan) in de standaard bewegingsruimte mogelijk om het generatieproces direct te controleren, vergelijkbaar met het controleren van andere latent-vrije diffusiemodellen voor bewegingsgeneratie. Door deze technieken toe te passen, kan onze aanpak menselijke bewegingen genereren met tekst en controlesignalen in realtime. Experimentele resultaten tonen de opmerkelijke generatie- en controlecapaciteiten van MotionLCM aan, terwijl de realtime runtime-efficiëntie behouden blijft.
English
This work introduces MotionLCM, extending controllable motion generation to a
real-time level. Existing methods for spatial control in text-conditioned
motion generation suffer from significant runtime inefficiency. To address this
issue, we first propose the motion latent consistency model (MotionLCM) for
motion generation, building upon the latent diffusion model (MLD). By employing
one-step (or few-step) inference, we further improve the runtime efficiency of
the motion latent diffusion model for motion generation. To ensure effective
controllability, we incorporate a motion ControlNet within the latent space of
MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the
vanilla motion space to control the generation process directly, similar to
controlling other latent-free diffusion models for motion generation. By
employing these techniques, our approach can generate human motions with text
and control signals in real-time. Experimental results demonstrate the
remarkable generation and controlling capabilities of MotionLCM while
maintaining real-time runtime efficiency.