Uniendo Condiciones Semánticas y Cinemáticas con un Tokenizador de Movimiento Discreto Basado en Difusión
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer
March 19, 2026
Autores: Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Resumen
La generación de movimiento previa sigue principalmente dos paradigmas: los modelos de difusión continua que destacan en el control cinemático y los generadores basados en tokens discretos que son efectivos para el condicionamiento semántico. Para combinar sus ventajas, proponemos un marco de tres etapas que comprende la extracción de características de condición (Percepción), la generación de tokens discretos (Planificación) y la síntesis de movimiento basada en difusión (Control). El elemento central de este marco es MoTok, un tokenizador de movimiento discreto basado en difusión que desacopla la abstracción semántica de la reconstrucción detallada al delegar la recuperación del movimiento a un decodificador de difusión, permitiendo tokens compactos de una sola capa mientras preserva la fidelidad del movimiento. Para condiciones cinemáticas, las restricciones aproximadas guían la generación de tokens durante la planificación, mientras que las restricciones detalladas se aplican durante el control mediante optimización basada en difusión. Este diseño evita que los detalles cinemáticos perturben la planificación de tokens semánticos. En HumanML3D, nuestro método mejora significativamente la controlabilidad y fidelidad sobre MaskControl mientras utiliza solo una sexta parte de los tokens, reduciendo el error de trayectoria de 0.72 cm a 0.08 cm y el FID de 0.083 a 0.029. A diferencia de métodos anteriores que se degradan bajo restricciones cinemáticas más fuertes, el nuestro mejora la fidelidad, reduciendo el FID de 0.033 a 0.014.
English
Prior motion generation largely follows two paradigms: continuous diffusion models that excel at kinematic control, and discrete token-based generators that are effective for semantic conditioning. To combine their strengths, we propose a three-stage framework comprising condition feature extraction (Perception), discrete token generation (Planning), and diffusion-based motion synthesis (Control). Central to this framework is MoTok, a diffusion-based discrete motion tokenizer that decouples semantic abstraction from fine-grained reconstruction by delegating motion recovery to a diffusion decoder, enabling compact single-layer tokens while preserving motion fidelity. For kinematic conditions, coarse constraints guide token generation during planning, while fine-grained constraints are enforced during control through diffusion-based optimization. This design prevents kinematic details from disrupting semantic token planning. On HumanML3D, our method significantly improves controllability and fidelity over MaskControl while using only one-sixth of the tokens, reducing trajectory error from 0.72 cm to 0.08 cm and FID from 0.083 to 0.029. Unlike prior methods that degrade under stronger kinematic constraints, ours improves fidelity, reducing FID from 0.033 to 0.014.