MotionVLA: Modelo Visão-Linguagem-Ação para Movimento Humanoide

Resumo

Gerar movimento humanoide realista a partir de imagens de cena e texto envolve tanto semânticas posturais de baixa frequência quanto dinâmicas físicas de alta frequência. No entanto, muitos métodos existentes tokenizam o movimento com um único codebook compartilhado, forçando sinais de movimento heterogêneos no mesmo espaço de quantização. Nossa análise no domínio da frequência dos dados de movimento humano revela uma clara incompatibilidade entre a quantização com um único codebook e as estatísticas do movimento: cinco coeficientes DCT capturam 93% da energia das posições das articulações, mas apenas 37% da energia das velocidades das articulações, o que pode enviesar a quantização para as estatísticas posturais e sub-representar componentes de alta frequência da velocidade. Um segundo desafio reside em adaptar um modelo autorregressivo padrão para modelar eficazmente sinais físicos de alta frequência em sequências de movimento. Portanto, propomos o DSFT, um tokenizador de frequência de fluxo duplo que separa o movimento em fluxos Base e físico e os comprime independentemente com truncamento DCT e BPE. Além disso, apresentamos o MotionVLA, um modelo baseado em Qwen3.5 que organiza os tokens Base e físicos em uma sequência unificada, na qual os tokens Phys são previstos após os tokens Base. Experimentos no HumanML3D e no MBench mostram que, apesar de usar um backbone leve de 2B, o MotionVLA reduz a lacuna de diversidade em relação aos dados reais em mais de 50% no HumanML3D e melhora a consistência condição-movimento em 3,8% no MBench, apoiando o desacoplamento de fluxo duplo sensível à frequência como uma formulação eficaz para a geração autorregressiva de movimento. Código: https://github.com/AIGeeksGroup/MotionVLA. Site: https://aigeeksgroup.github.io/MotionVLA.

English

Generating realistic humanoid motion from scene images and text involves both low-frequency pose semantics and high-frequency physical dynamics. However, many existing methods tokenize motion with a single shared codebook, forcing heterogeneous motion signals into the same quantization space. Our frequency-domain analysis of human motion data reveals a clear mismatch between single-codebook quantization and motion statistics: five DCT coefficients capture 93% of joint-position energy but only 37% of joint-velocity energy, which can bias quantization toward pose statistics and under-represent high-frequency velocity components. A second challenge lies in adapting a standard autoregressive model to effectively model high-frequency physical signals in motion sequences. Therefore, we propose DSFT, a dual-stream frequency tokenizer that separates motion into Base and physical streams and compresses them independently with DCT truncation and BPE. Furthermore, we present MotionVLA, a Qwen3.5-based model that arranges Base and physical tokens in a unified sequence, where Phys tokens are predicted after Base tokens. Experiments on HumanML3D and MBench show that, despite using a lightweight 2B backbone, MotionVLA reduces the Diversity gap to real data by over 50% on HumanML3D and improves Motion-Condition Consistency by 3.8% on MBench, supporting frequency-aware dual-stream decoupling as an effective formulation for autoregressive motion generation. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.