MotionVLA : Modèle Vision-Langage-Action pour le mouvement humanoïde

Résumé

La génération de mouvements humanoïdes réalistes à partir d'images de scène et de texte implique à la fois des sémantiques de pose à basse fréquence et des dynamiques physiques à haute fréquence. Cependant, de nombreuses méthodes existantes tokenisent le mouvement à l'aide d'un seul codebook partagé, forçant des signaux de mouvement hétérogènes dans le même espace de quantification. Notre analyse dans le domaine fréquentiel des données de mouvement humain révèle un décalage clair entre la quantification à codebook unique et les statistiques du mouvement : cinq coefficients DCT capturent 93 % de l'énergie des positions articulaires mais seulement 37 % de l'énergie des vitesses articulaires, ce qui peut biaiser la quantification vers les statistiques de pose et sous-représenter les composantes de vitesse à haute fréquence. Un deuxième défi consiste à adapter un modèle autorégressif standard pour modéliser efficacement les signaux physiques à haute fréquence dans les séquences de mouvement. Par conséquent, nous proposons DSFT, un tokeniseur fréquentiel à double flux qui sépare le mouvement en flux de base et flux physique et les compresse indépendamment à l'aide d'une troncature DCT et de BPE. De plus, nous présentons MotionVLA, un modèle basé sur Qwen3.5 qui dispose les tokens de base et physiques dans une séquence unifiée, où les tokens Phys sont prédits après les tokens de base. Les expériences sur HumanML3D et MBench montrent que, malgré l'utilisation d'un backbone léger de 2B, MotionVLA réduit de plus de 50 % l'écart de diversité avec les données réelles sur HumanML3D et améliore la cohérence condition-mouvement de 3,8 % sur MBench, confirmant que le découplage à double flux sensible aux fréquences constitue une formulation efficace pour la génération autorégressive de mouvement. Code : https://github.com/AIGeeksGroup/MotionVLA. Site web : https://aigeeksgroup.github.io/MotionVLA.

English

Generating realistic humanoid motion from scene images and text involves both low-frequency pose semantics and high-frequency physical dynamics. However, many existing methods tokenize motion with a single shared codebook, forcing heterogeneous motion signals into the same quantization space. Our frequency-domain analysis of human motion data reveals a clear mismatch between single-codebook quantization and motion statistics: five DCT coefficients capture 93% of joint-position energy but only 37% of joint-velocity energy, which can bias quantization toward pose statistics and under-represent high-frequency velocity components. A second challenge lies in adapting a standard autoregressive model to effectively model high-frequency physical signals in motion sequences. Therefore, we propose DSFT, a dual-stream frequency tokenizer that separates motion into Base and physical streams and compresses them independently with DCT truncation and BPE. Furthermore, we present MotionVLA, a Qwen3.5-based model that arranges Base and physical tokens in a unified sequence, where Phys tokens are predicted after Base tokens. Experiments on HumanML3D and MBench show that, despite using a lightweight 2B backbone, MotionVLA reduces the Diversity gap to real data by over 50% on HumanML3D and improves Motion-Condition Consistency by 3.8% on MBench, supporting frequency-aware dual-stream decoupling as an effective formulation for autoregressive motion generation. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.