MotionLCM: 潜在一貫性モデルによるリアルタイム制御可能なモーション生成

MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model

April 30, 2024
著者: Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang
cs.AI

要旨

本研究では、MotionLCMを導入し、制御可能なモーション生成をリアルタイムレベルに拡張します。テキスト条件付きモーション生成における空間制御の既存手法は、実行時の非効率性に悩まされています。この問題に対処するため、まず、潜在拡散モデル(MLD)を基盤としたモーション生成のためのモーション潜在一貫性モデル(MotionLCM)を提案します。1ステップ(または少数ステップ)推論を採用することで、モーション潜在拡散モデルの実行時効率をさらに向上させます。効果的な制御性を確保するため、MotionLCMの潜在空間内にモーションControlNetを組み込み、純粋なモーション空間における明示的な制御信号(例:骨盤軌跡)を直接生成プロセスを制御するために利用します。これは、他の潜在フリー拡散モデルをモーション生成のために制御するのと同様です。これらの技術を採用することで、我々のアプローチはテキストと制御信号を用いて人間のモーションをリアルタイムで生成することが可能です。実験結果は、MotionLCMの卓越した生成能力と制御能力を実証しつつ、リアルタイムの実行時効率を維持しています。
English
This work introduces MotionLCM, extending controllable motion generation to a real-time level. Existing methods for spatial control in text-conditioned motion generation suffer from significant runtime inefficiency. To address this issue, we first propose the motion latent consistency model (MotionLCM) for motion generation, building upon the latent diffusion model (MLD). By employing one-step (or few-step) inference, we further improve the runtime efficiency of the motion latent diffusion model for motion generation. To ensure effective controllability, we incorporate a motion ControlNet within the latent space of MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the vanilla motion space to control the generation process directly, similar to controlling other latent-free diffusion models for motion generation. By employing these techniques, our approach can generate human motions with text and control signals in real-time. Experimental results demonstrate the remarkable generation and controlling capabilities of MotionLCM while maintaining real-time runtime efficiency.
PDF282December 8, 2024