MotionVLA: Modelo Visión-Lenguaje-Acción para Movimiento Humanoide

Resumen

La generación de movimiento humanoide realista a partir de imágenes de escenas y texto implica tanto semántica de pose de baja frecuencia como dinámicas físicas de alta frecuencia. Sin embargo, muchos métodos existentes tokenizan el movimiento con un único libro de códigos compartido, lo que fuerza a señales de movimiento heterogéneas al mismo espacio de cuantización. Nuestro análisis en el dominio de la frecuencia de datos de movimiento humano revela una clara discrepancia entre la cuantización con un solo libro de códigos y las estadísticas del movimiento: cinco coeficientes DCT capturan el 93% de la energía de las posiciones articulares, pero solo el 37% de la energía de las velocidades articulares, lo que puede sesgar la cuantización hacia las estadísticas de pose y subrepresentar los componentes de velocidad de alta frecuencia. Un segundo desafío radica en adaptar un modelo autorregresivo estándar para modelar eficazmente señales físicas de alta frecuencia en secuencias de movimiento. Por ello, proponemos DSFT, un tokenizador de flujo dual en frecuencia que separa el movimiento en flujos Base y físico, y los comprime de forma independiente mediante truncamiento DCT y BPE. Además, presentamos MotionVLA, un modelo basado en Qwen3.5 que organiza los tokens Base y físicos en una secuencia unificada, donde los tokens Phys se predicen después de los tokens Base. Los experimentos en HumanML3D y MBench muestran que, a pesar de emplear una arquitectura ligera de 2B parámetros, MotionVLA reduce la brecha de diversidad con los datos reales en más de un 50% en HumanML3D y mejora la consistencia entre condición y movimiento en un 3.8% en MBench, lo que respalda el desacoplamiento de flujo dual consciente de la frecuencia como una formulación efectiva para la generación autorregresiva de movimiento. Código: https://github.com/AIGeeksGroup/MotionVLA. Sitio web: https://aigeeksgroup.github.io/MotionVLA.

English

Generating realistic humanoid motion from scene images and text involves both low-frequency pose semantics and high-frequency physical dynamics. However, many existing methods tokenize motion with a single shared codebook, forcing heterogeneous motion signals into the same quantization space. Our frequency-domain analysis of human motion data reveals a clear mismatch between single-codebook quantization and motion statistics: five DCT coefficients capture 93% of joint-position energy but only 37% of joint-velocity energy, which can bias quantization toward pose statistics and under-represent high-frequency velocity components. A second challenge lies in adapting a standard autoregressive model to effectively model high-frequency physical signals in motion sequences. Therefore, we propose DSFT, a dual-stream frequency tokenizer that separates motion into Base and physical streams and compresses them independently with DCT truncation and BPE. Furthermore, we present MotionVLA, a Qwen3.5-based model that arranges Base and physical tokens in a unified sequence, where Phys tokens are predicted after Base tokens. Experiments on HumanML3D and MBench show that, despite using a lightweight 2B backbone, MotionVLA reduces the Diversity gap to real data by over 50% on HumanML3D and improves Motion-Condition Consistency by 3.8% on MBench, supporting frequency-aware dual-stream decoupling as an effective formulation for autoregressive motion generation. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.