MotionVLA: Vision-Language-Action-Modell für humanoide Bewegung

Zusammenfassung

Die Erzeugung realistischer menschenähnlicher Bewegungen aus Szenenbildern und Text umfasst sowohl niederfrequente Posen-Semantik als auch hochfrequente physikalische Dynamiken. Viele bestehende Methoden tokenisieren Bewegungen jedoch mit einem einzigen gemeinsamen Codebuch, wodurch heterogene Bewegungssignale in denselben Quantisierungsraum gezwungen werden. Unsere Frequenzbereichsanalyse von menschlichen Bewegungsdaten zeigt eine deutliche Diskrepanz zwischen der Einzelcodebuch-Quantisierung und der Bewegungsstatistik: Fünf DCT-Koeffizienten erfassen 93 % der Gelenkpositionsenergie, aber nur 37 % der Gelenkgeschwindigkeitsenergie, was die Quantisierung zugunsten der Posenstatistik verzerren und hochfrequente Geschwindigkeitskomponenten unterrepräsentieren kann. Eine zweite Herausforderung liegt in der Anpassung eines standardmäßigen autoregressiven Modells zur effektiven Modellierung hochfrequenter physikalischer Signale in Bewegungssequenzen. Daher schlagen wir DSFT vor, einen Dual-Stream-Frequenz-Tokenizer, der Bewegungen in Basis- und physikalische Ströme trennt und diese unabhängig voneinander mittels DCT-Trunkierung und BPE komprimiert. Darüber hinaus präsentieren wir MotionVLA, ein auf Qwen3.5 basierendes Modell, das Basis- und physikalische Tokens in einer einheitlichen Sequenz anordnet, wobei Phys-Tokens nach den Basis-Tokens vorhergesagt werden. Experimente mit HumanML3D und MBench zeigen, dass MotionVLA trotz eines leichten 2B-Backbones die Diversitätslücke zu echten Daten auf HumanML3D um über 50 % reduziert und die Bewegungs-Bedingungs-Konsistenz auf MBench um 3,8 % verbessert, was die frequenzbewusste Dual-Stream-Entkopplung als effektive Formulierung für autoregressive Bewegungserzeugung unterstützt. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.

English

Generating realistic humanoid motion from scene images and text involves both low-frequency pose semantics and high-frequency physical dynamics. However, many existing methods tokenize motion with a single shared codebook, forcing heterogeneous motion signals into the same quantization space. Our frequency-domain analysis of human motion data reveals a clear mismatch between single-codebook quantization and motion statistics: five DCT coefficients capture 93% of joint-position energy but only 37% of joint-velocity energy, which can bias quantization toward pose statistics and under-represent high-frequency velocity components. A second challenge lies in adapting a standard autoregressive model to effectively model high-frequency physical signals in motion sequences. Therefore, we propose DSFT, a dual-stream frequency tokenizer that separates motion into Base and physical streams and compresses them independently with DCT truncation and BPE. Furthermore, we present MotionVLA, a Qwen3.5-based model that arranges Base and physical tokens in a unified sequence, where Phys tokens are predicted after Base tokens. Experiments on HumanML3D and MBench show that, despite using a lightweight 2B backbone, MotionVLA reduces the Diversity gap to real data by over 50% on HumanML3D and improves Motion-Condition Consistency by 3.8% on MBench, supporting frequency-aware dual-stream decoupling as an effective formulation for autoregressive motion generation. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.