MotionVLA: модель видения-языка-действия для движений гуманоида

Аннотация

Генерация реалистичного человекоподобного движения на основе сценовых изображений и текста включает как низкочастотную семантику поз, так и высокочастотную физическую динамику. Однако многие существующие методы токенизируют движение с помощью единого общего кодового словаря, вынуждая разнородные сигналы движения попадать в одно и то же пространство квантования. Наш частотный анализ данных о движениях человека выявляет явное несоответствие между квантованием с единым кодбуком и статистикой движения: пять коэффициентов дискретного косинусного преобразования (ДКП) захватывают 93% энергии положения суставов, но лишь 37% энергии скорости суставов, что может смещать квантование в сторону статистики поз и недостаточно представлять высокочастотные компоненты скорости. Вторая задача заключается в адаптации стандартной авторегрессионной модели для эффективного моделирования высокочастотных физических сигналов в последовательностях движений. Поэтому мы предлагаем DSFT — двухпотоковый частотный токенизатор, который разделяет движение на базовый и физический потоки и сжимает их независимо с помощью усечения ДКП и BPE. Кроме того, мы представляем MotionVLA — модель на основе Qwen3.5, которая размещает базовые и физические токены в единой последовательности, где физические токены предсказываются после базовых токенов. Эксперименты на наборах данных HumanML3D и MBench показывают, что, несмотря на использование легковесной основы с 2 миллиардами параметров, MotionVLA сокращает разрыв в разнообразии (Diversity gap) по сравнению с реальными данными более чем на 50% на HumanML3D и улучшает согласованность движения с условием (Motion-Condition Consistency) на 3,8% на MBench, что подтверждает эффективность частотно-осознанного двухпотокового разделения как формы для авторегрессионной генерации движения. Код: https://github.com/AIGeeksGroup/MotionVLA. Сайт: https://aigeeksgroup.github.io/MotionVLA.

English

Generating realistic humanoid motion from scene images and text involves both low-frequency pose semantics and high-frequency physical dynamics. However, many existing methods tokenize motion with a single shared codebook, forcing heterogeneous motion signals into the same quantization space. Our frequency-domain analysis of human motion data reveals a clear mismatch between single-codebook quantization and motion statistics: five DCT coefficients capture 93% of joint-position energy but only 37% of joint-velocity energy, which can bias quantization toward pose statistics and under-represent high-frequency velocity components. A second challenge lies in adapting a standard autoregressive model to effectively model high-frequency physical signals in motion sequences. Therefore, we propose DSFT, a dual-stream frequency tokenizer that separates motion into Base and physical streams and compresses them independently with DCT truncation and BPE. Furthermore, we present MotionVLA, a Qwen3.5-based model that arranges Base and physical tokens in a unified sequence, where Phys tokens are predicted after Base tokens. Experiments on HumanML3D and MBench show that, despite using a lightweight 2B backbone, MotionVLA reduces the Diversity gap to real data by over 50% on HumanML3D and improves Motion-Condition Consistency by 3.8% on MBench, supporting frequency-aware dual-stream decoupling as an effective formulation for autoregressive motion generation. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.