Overbrugging van Semantische en Kinematische Condities met een Op Diffusie Gebaseerde Discrete Bewegingstokenizer
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer
March 19, 2026
Auteurs: Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Samenvatting
Eerdere methoden voor het genereren van beweging volgden grotendeels twee paradigma's: continue diffusiemodellen die uitblinken in kinematische controle, en discrete token-gebaseerde generatoren die effectief zijn voor semantische conditionering. Om hun sterke punten te combineren, stellen we een driedelig framework voor dat bestaat uit conditioneringsextractie (Perceptie), generatie van discrete tokens (Planning) en diffusiegebaseerde bewegingssynthese (Controle). Centraal in dit framework staat MoTok, een diffusiegebaseerde discrete bewegingstokenizer die semantische abstractie ontkoppelt van fijnmazige reconstructie door het herstel van beweging over te laten aan een diffusiedecoder. Hierdoor zijn compacte tokens met één laag mogelijk, terwijl de bewegingskwaliteit behouden blijft. Voor kinematische condities sturen grove beperkingen de token-generatie tijdens de planning, terwijl fijnmazige beperkingen worden afgedwongen tijdens de controle via diffusiegebaseerde optimalisatie. Dit ontwerp voorkomt dat kinematische details de semantische token-planning verstoren. Op HumanML3D verbetert onze methode de bestuurbaarheid en kwaliteit aanzienlijk ten opzichte van MaskControl, terwijl slechts een zesde van de tokens wordt gebruikt. De trajectfout daalt van 0,72 cm naar 0,08 cm en de FID van 0,083 naar 0,029. In tegenstelling tot eerdere methoden die verslechteren onder sterkere kinematische beperkingen, verbetert onze methode de kwaliteit, met een daling van de FID van 0,033 naar 0,014.
English
Prior motion generation largely follows two paradigms: continuous diffusion models that excel at kinematic control, and discrete token-based generators that are effective for semantic conditioning. To combine their strengths, we propose a three-stage framework comprising condition feature extraction (Perception), discrete token generation (Planning), and diffusion-based motion synthesis (Control). Central to this framework is MoTok, a diffusion-based discrete motion tokenizer that decouples semantic abstraction from fine-grained reconstruction by delegating motion recovery to a diffusion decoder, enabling compact single-layer tokens while preserving motion fidelity. For kinematic conditions, coarse constraints guide token generation during planning, while fine-grained constraints are enforced during control through diffusion-based optimization. This design prevents kinematic details from disrupting semantic token planning. On HumanML3D, our method significantly improves controllability and fidelity over MaskControl while using only one-sixth of the tokens, reducing trajectory error from 0.72 cm to 0.08 cm and FID from 0.083 to 0.029. Unlike prior methods that degrade under stronger kinematic constraints, ours improves fidelity, reducing FID from 0.033 to 0.014.