Compréhension du mouvement humain sans encodeur via des descriptions de mouvement structurées

Résumé

Les capacités de connaissances mondiales et de raisonnement des grands modèles de langage (LLM) basés sur le texte progressent rapidement, pourtant les approches actuelles de compréhension du mouvement humain, incluant le question-réponse et la description de mouvements, n'exploitent pas pleinement ces capacités. Les méthodes existantes basées sur les LLM apprennent généralement l'alignement mouvement-langage via des encodeurs dédiés qui projettent les caractéristiques du mouvement dans l'espace d'embedding du LLM, restant ainsi limitées par la représentation et l'alignement intermodaux. Inspirés par l'analyse biomécanique, où les angles articulaires et la cinématique des segments corporels servent depuis longtemps de langage descriptif précis pour le mouvement humain, nous proposons la Description Structurée du Mouvement (SMD), une approche déterministe basée sur des règles qui convertit les séquences de positions articulaires en descriptions en langage naturel structuré des angles articulaires, des mouvements des segments corporels et de la trajectoire globale. En représentant le mouvement sous forme de texte, SMD permet aux LLM d'appliquer directement leurs connaissances pré-entraînées sur les segments corporels, les directions spatiales et la sémantique du mouvement au raisonnement moteur, sans nécessiter d'encodeurs appris ou de modules d'alignement. Nous montrons que cette approche dépasse l'état de l'art à la fois en question-réponse sur le mouvement (66,7 % sur BABEL-QA, 90,1 % sur HuMMan-QA) et en description de mouvement (R@1 de 0,584, CIDEr de 53,16 sur HumanML3D), surpassant toutes les méthodes antérieures. SMD offre en outre des avantages pratiques : la même entrée textuelle fonctionne avec différents LLM grâce à une simple adaptation LoRA légère (validée sur 8 LLMs issus de 6 familles de modèles), et sa représentation lisible par l'homme permet une analyse d'attention interprétable des descriptions de mouvement. Le code, les données et les adaptateurs LoRA pré-entraînés sont disponibles à l'adresse https://yaozhang182.github.io/motion-smd/.

English

The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.

Compréhension du mouvement humain sans encodeur via des descriptions de mouvement structurées

Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Résumé

Support