Соединение семантических и кинематических условий с помощью диффузионного дискретного токенизатора движений
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer
March 19, 2026
Авторы: Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Аннотация
Предыдущие методы генерации движений в основном следуют двум парадигмам: непрерывные диффузионные модели, которые превосходно справляются с кинематическим контролем, и дискретные токенизированные генераторы, эффективные для семантического кондиционирования. Чтобы объединить их преимущества, мы предлагаем трехэтапную структуру, включающую извлечение признаков условий (Восприятие), генерацию дискретных токенов (Планирование) и синтез движений на основе диффузии (Управление). Ключевым элементом этой структуры является MoTok — диффузионный токенизатор движений, который разделяет семантическую абстракцию и детальную реконструкцию, делегируя восстановление движений диффузионному декодеру. Это позволяет использовать компактные одноуровневые токены, сохраняя при этом точность движений. Для кинематических условий грубые ограничения направляют генерацию токенов на этапе планирования, тогда как детальные ограничения применяются на этапе управления посредством диффузионной оптимизации. Такой подход предотвращает нарушение семантического планирования токенов кинематическими деталями. На наборе данных HumanML3D наш метод значимо улучшает управляемость и точность по сравнению с MaskControl, используя лишь одну шестую часть токенов: ошибка траектории снижается с 0.72 см до 0.08 см, а FID — с 0.083 до 0.029. В отличие от предыдущих методов, чья точность ухудшается при усилении кинематических ограничений, наш метод демонстрирует её улучшение, снижая FID с 0.033 до 0.014.
English
Prior motion generation largely follows two paradigms: continuous diffusion models that excel at kinematic control, and discrete token-based generators that are effective for semantic conditioning. To combine their strengths, we propose a three-stage framework comprising condition feature extraction (Perception), discrete token generation (Planning), and diffusion-based motion synthesis (Control). Central to this framework is MoTok, a diffusion-based discrete motion tokenizer that decouples semantic abstraction from fine-grained reconstruction by delegating motion recovery to a diffusion decoder, enabling compact single-layer tokens while preserving motion fidelity. For kinematic conditions, coarse constraints guide token generation during planning, while fine-grained constraints are enforced during control through diffusion-based optimization. This design prevents kinematic details from disrupting semantic token planning. On HumanML3D, our method significantly improves controllability and fidelity over MaskControl while using only one-sixth of the tokens, reducing trajectory error from 0.72 cm to 0.08 cm and FID from 0.083 to 0.029. Unlike prior methods that degrade under stronger kinematic constraints, ours improves fidelity, reducing FID from 0.033 to 0.014.