Menselijke Bewegingsbegrip zonder Encoder via Gestructureerde Bewegingsbeschrijvingen

Samenvatting

De wereldkennis en redeneervermogen van op tekst gebaseerde grote taalmmodellen (LLM's) ontwikkelen zich snel, maar huidige benaderingen voor het begrijpen van menselijke beweging, waaronder bewegingsvraagbeantwoording en -beschrijving, hebben deze mogelijkheden nog niet volledig benut. Bestaande op LLM's gebaseerde methoden leren typisch bewegings-taal-alignment via specifieke encoders die bewegingskenmerken projecteren in de embeddedingsruimte van de LLM, waarbij ze beperkt blijven door cross-modale representatie en alignment. Geïnspireerd door biomechanische analyse, waar gewrichtshoeken en kinematica van lichaamsdelen al lang dienen als een precieze beschrijvende taal voor menselijke beweging, stellen wij Gestructureerde Bewegingsbeschrijving (SMD) voor, een op regels gebaseerde, deterministische benadering die gewrichtspositie-reeksen omzet in gestructureerde natuurlijke-taal beschrijvingen van gewrichtshoeken, lichaamsdeelbewegingen en globale trajectorie. Door beweging als tekst te representeren, stelt SMD LLM's in staat om hun vooraf getrainde kennis van lichaamsdelen, ruimtelijke richtingen en bewegingssemantiek direct toe te passen op bewegingredenering, zonder dat geleerde encoders of alignmentmodules nodig zijn. Wij tonen aan dat deze benadering verder gaat dan state-of-the-art resultaten voor zowel bewegingsvraagbeantwoording (66,7% op BABEL-QA, 90,1% op HuMMan-QA) als bewegingsbeschrijving (R@1 van 0,584, CIDEr van 53,16 op HumanML3D), waarbij alle eerdere methoden worden overtroffen. SMD biedt bovendien praktische voordelen: dezelfde tekstinvoer werkt op verschillende LLM's met slechts een lichtgewicht LoRA-aanpassing (gevalideerd op 8 LLM's uit 6 modelfamilies), en de menselijk leesbare representatie maakt interpreteerbare aandachtanalyse over bewegingsbeschrijvingen mogelijk. Code, data en voorgetrainde LoRA-adapters zijn beschikbaar op https://yaozhang182.github.io/motion-smd/.

English

The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.

Menselijke Bewegingsbegrip zonder Encoder via Gestructureerde Bewegingsbeschrijvingen

Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Samenvatting

Support