MotionLCM: Echtzeitsteuerbare Bewegungserzeugung über Latente Konsistenzmodell
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model
April 30, 2024
Autoren: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
cs.AI
Zusammenfassung
Diese Arbeit stellt MotionLCM vor, das die kontrollierte Bewegungserzeugung auf eine Echtzeit-Ebene erweitert. Bestehende Methoden zur räumlichen Steuerung in textkonditionierter Bewegungserzeugung leiden unter erheblicher Laufzeiteffizienz. Um dieses Problem zu lösen, schlagen wir zunächst das Bewegungs-Latenz-Konsistenzmodell (MotionLCM) für die Bewegungserzeugung vor, das auf dem Latenzdiffusionsmodell (MLD) aufbaut. Durch die Verwendung von Ein-Schritt- (oder Wenige-Schritte-) Inferenz verbessern wir weiter die Laufzeiteffizienz des Bewegungs-Latenzdiffusionsmodells für die Bewegungserzeugung. Um eine effektive Steuerbarkeit zu gewährleisten, integrieren wir ein Bewegungssteuerungsnetz innerhalb des Latenzraums von MotionLCM und ermöglichen explizite Steuersignale (z. B. Beckentrajektorie) im herkömmlichen Bewegungsraum, um den Generierungsprozess direkt zu steuern, ähnlich wie bei der Steuerung anderer latenzfreier Diffusionsmodelle für Bewegungserzeugung. Durch den Einsatz dieser Techniken kann unser Ansatz menschliche Bewegungen mit Text und Steuersignalen in Echtzeit generieren. Experimentelle Ergebnisse zeigen die bemerkenswerten Generierungs- und Steuerungsfähigkeiten von MotionLCM bei gleichzeitiger Aufrechterhaltung der Echtzeit-Laufzeiteffizienz.
English
This work introduces MotionLCM, extending controllable motion generation to a
real-time level. Existing methods for spatial control in text-conditioned
motion generation suffer from significant runtime inefficiency. To address this
issue, we first propose the motion latent consistency model (MotionLCM) for
motion generation, building upon the latent diffusion model (MLD). By employing
one-step (or few-step) inference, we further improve the runtime efficiency of
the motion latent diffusion model for motion generation. To ensure effective
controllability, we incorporate a motion ControlNet within the latent space of
MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the
vanilla motion space to control the generation process directly, similar to
controlling other latent-free diffusion models for motion generation. By
employing these techniques, our approach can generate human motions with text
and control signals in real-time. Experimental results demonstrate the
remarkable generation and controlling capabilities of MotionLCM while
maintaining real-time runtime efficiency.Summary
AI-Generated Summary