Comprensione del movimento umano senza encoder tramite descrizioni strutturate del movimento

Abstract

Le capacità di conoscenza del mondo e di ragionamento dei modelli linguistici di grandi dimensioni (LLM) basati su testo stanno progredendo rapidamente, eppure gli approcci attuali alla comprensione del movimento umano, inclusi il question answering e la descrizione del movimento, non hanno sfruttato appieno queste potenzialità. I metodi esistenti basati su LLM tipicamente apprendono l'allineamento movimento-linguaggio attraverso encoder dedicati che proiettano le caratteristiche del movimento nello spazio di embedding dell'LLM, rimanendo vincolati dalla rappresentazione e dall'allineamento cross-modale. Ispirati dall'analisi biomeccanica, in cui gli angoli articolari e la cinematica delle parti del corpo hanno a lungo servito come linguaggio descrittivo preciso per il movimento umano, proponiamo Structured Motion Description (SMD), un approccio deterministico e basato su regole che converte sequenze di posizioni articolari in descrizioni strutturate in linguaggio naturale degli angoli articolari, dei movimenti delle parti del corpo e della traiettoria globale. Rappresentando il movimento come testo, SMD consente agli LLM di applicare la loro conoscenza pre-addestrata delle parti del corpo, delle direzioni spaziali e della semantica del movimento direttamente al ragionamento sul movimento, senza richiedere encoder appresi o moduli di allineamento. Dimostriamo che questo approccio supera i risultati state-of-the-art sia nel question answering sul movimento (66.7% su BABEL-QA, 90.1% su HuMMan-QA) che nella descrizione del movimento (R@1 di 0.584, CIDEr di 53.16 su HumanML3D), superando tutti i metodi precedenti. SMD offre inoltre vantaggi pratici: lo stesso input testuale funziona su diversi LLM con solo un adattamento LoRA leggero (validato su 8 LLM di 6 famiglie di modelli), e la sua rappresentazione leggibile dall'uomo permette un'analisi dell'attenzione interpretabile sulle descrizioni del movimento. Codice, dati e adattatori LoRA pre-addestrati sono disponibili su https://yaozhang182.github.io/motion-smd/.

English

The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.

Comprensione del movimento umano senza encoder tramite descrizioni strutturate del movimento

Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Abstract

Support