Понимание движений человека без энкодера через структурированные описания движений

Аннотация

Знания о мире и способности к рассуждению у текстовых больших языковых моделей (LLM) быстро развиваются, однако современные подходы к пониманию движений человека, включая ответы на вопросы о движениях и их описания, не полностью используют эти возможности. Существующие методы на основе LLM обычно изучают соответствие между движением и языком через специализированные энкодеры, проецирующие признаки движений в пространство эмбеддингов LLM, оставаясь ограниченными проблемами кросс-модального представления и выравнивания. Вдохновляясь биомеханическим анализом, где углы суставов и кинематика частей тела давно служат точным описательным языком для движений человека, мы предлагаем Структурированное Описание Движений (SMD) — основанный на правилах детерминистический подход, преобразующий последовательности позиций суставов в структурированные естественно-языковые описания углов суставов, движений частей тела и глобальной траектории. Представляя движение в виде текста, SMD позволяет LLM напрямую применять свои предобученные знания о частях тела, пространственных направлениях и семантике движений к анализу движений, без необходимости в обучаемых энкодерах или модулях выравнивания. Мы демонстрируем, что данный подход превосходит современные результаты как в ответах на вопросы о движениях (66.7% на BABEL-QA, 90.1% на HuMMan-QA), так и в описании движений (R@1 0.584, CIDEr 53.16 на HumanML3D), превышая показатели всех предыдущих методов. SMD также предлагает практические преимущества: один и тот же текстовый вход работает с различными LLM при помощи лишь легковесной адаптации LoRA (проверено на 8 LLM из 6 семейств моделей), а его интерпретируемое человеком представление позволяет проводить анализ внимания над описаниями движений. Код, данные и предобученные адаптеры LoRA доступны по адресу https://yaozhang182.github.io/motion-smd/.

English

The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.

Понимание движений человека без энкодера через структурированные описания движений

Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Аннотация

Support