Ponte entre Condições Semânticas e Cinemáticas com um Tokenizador de Movimento Discreto Baseado em Difusão

Resumo

A geração de movimento prévia segue amplamente dois paradigmas: modelos de difusão contínua que se destacam no controle cinemático e geradores baseados em tokens discretos que são eficazes para condicionamento semântico. Para combinar seus pontos fortes, propomos uma estrutura de três estágios que compreende extração de características de condição (Percepção), geração de tokens discretos (Planejamento) e síntese de movimento baseada em difusão (Controle). Central a esta estrutura está o MoTok, um tokenizador de movimento discreto baseado em difusão que desacopla a abstração semântica da reconstrução de alto detalhe, delegando a recuperação do movimento a um decodificador de difusão, permitindo tokens compactos de camada única enquanto preserva a fidelidade do movimento. Para condições cinemáticas, restrições grosseiras orientam a geração de tokens durante o planejamento, enquanto restrições de alto detalhe são aplicadas durante o controle por meio de otimização baseada em difusão. Este projeto impede que detalhes cinemáticos perturbem o planejamento de tokens semânticos. No HumanML3D, nosso método melhora significativamente a controlabilidade e fidelidade em relação ao MaskControl, usando apenas um sexto dos tokens, reduzindo o erro de trajetória de 0,72 cm para 0,08 cm e o FID de 0,083 para 0,029. Diferente de métodos anteriores que se degradam sob restrições cinemáticas mais fortes, o nosso melhora a fidelidade, reduzindo o FID de 0,033 para 0,014.

English

Prior motion generation largely follows two paradigms: continuous diffusion models that excel at kinematic control, and discrete token-based generators that are effective for semantic conditioning. To combine their strengths, we propose a three-stage framework comprising condition feature extraction (Perception), discrete token generation (Planning), and diffusion-based motion synthesis (Control). Central to this framework is MoTok, a diffusion-based discrete motion tokenizer that decouples semantic abstraction from fine-grained reconstruction by delegating motion recovery to a diffusion decoder, enabling compact single-layer tokens while preserving motion fidelity. For kinematic conditions, coarse constraints guide token generation during planning, while fine-grained constraints are enforced during control through diffusion-based optimization. This design prevents kinematic details from disrupting semantic token planning. On HumanML3D, our method significantly improves controllability and fidelity over MaskControl while using only one-sixth of the tokens, reducing trajectory error from 0.72 cm to 0.08 cm and FID from 0.083 to 0.029. Unlike prior methods that degrade under stronger kinematic constraints, ours improves fidelity, reducing FID from 0.033 to 0.014.

Ponte entre Condições Semânticas e Cinemáticas com um Tokenizador de Movimento Discreto Baseado em Difusão

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Resumo

Support