Verstehen menschlicher Bewegungen ohne Encoder mittels strukturierter Bewegungsbeschreibungen

Zusammenfassung

Die Weltwissens- und Reasoning-Fähigkeiten textbasierter großer Sprachmodelle (LLMs) schreiten rasch voran, doch aktuelle Ansätze zum Verständnis menschlicher Bewegungen, einschließlich Bewegungs-Fragebeantwortung und -Beschreibung, haben diese Fähigkeiten noch nicht vollständig ausgeschöpft. Bisherige LLM-basierte Methoden erlernen typischerweise die Bewegung-Sprache-Alignment durch spezielle Encoder, die Bewegungsmerkmale in den Einbettungsraum des LLMs projizieren, bleiben jedoch durch cross-modale Repräsentation und Alignment eingeschränkt. Inspiriert von der biomechanischen Analyse, in der Gelenkwinkel und Körperteil-Kinematik seit langem als präzise Beschreibungssprache für menschliche Bewegung dienen, schlagen wir Structured Motion Description (SMD) vor, einen regelbasierten, deterministischen Ansatz, der Gelenkpositionssequenzen in strukturierte natürliche Sprachbeschreibungen von Gelenkwinkeln, Körperteilbewegungen und globaler Trajektorie umwandelt. Indem Bewegung als Text repräsentiert wird, ermöglicht SMD LLMs, ihr vortrainiertes Wissen über Körperteile, räumliche Richtungen und Bewegungssemantik direkt auf das Bewegungs-Reasoning anzuwenden, ohne gelernte Encoder oder Alignment-Module zu benötigen. Wir zeigen, dass dieser Ansatz state-of-the-art Ergebnisse sowohl bei der Bewegungs-Fragebeantwortung (66,7 % auf BABEL-QA, 90,1 % auf HuMMan-QA) als auch bei der Bewegungsbeschreibung (R@1 von 0,584, CIDEr von 53,16 auf HumanML3D) übertrifft und alle bisherigen Methoden hinter sich lässt. SMD bietet zusätzlich praktische Vorteile: Derselbe Texteingang funktioniert über verschiedene LLMs hinweg mit nur leichtgewichtiger LoRA-Adaptierung (validiert an 8 LLMs aus 6 Modellfamilien), und seine menschenlesbare Repräsentation ermöglicht interpretierbare Aufmerksamkeitsanalysen über Bewegungsbeschreibungen. Code, Daten und vortrainierte LoRA-Adapter sind verfügbar unter https://yaozhang182.github.io/motion-smd/.

English

The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.

Verstehen menschlicher Bewegungen ohne Encoder mittels strukturierter Bewegungsbeschreibungen

Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Zusammenfassung

Support