Compreensão de Movimento Humano sem Codificação por meio de Descrições Estruturadas de Movimento

Resumo

O conhecimento mundial e as capacidades de raciocínio dos grandes modelos de linguagem (LLMs) baseados em texto estão avançando rapidamente, porém as abordagens atuais para compreensão de movimento humano, incluindo resposta a perguntas e legendagem sobre movimento, ainda não exploraram plenamente essas capacidades. Os métodos existentes baseados em LLMs geralmente aprendem o alinhamento movimento-linguagem através de codificadores dedicados que projetam características do movimento no espaço de incorporação do LLM, permanecendo limitados pela representação e alinhamento cross-modal. Inspirados pela análise biomecânica, onde ângulos articulares e cinemática de partes corporais há muito servem como uma linguagem descritiva precisa para o movimento humano, propomos a Descrição Estruturada de Movimento (SMD), uma abordagem determinística baseada em regras que converte sequências de posições articulares em descrições em linguagem natural estruturadas de ângulos articulares, movimentos de partes do corpo e trajetória global. Ao representar movimento como texto, o SMD permite que os LLMs apliquem seu conhecimento pré-treinado sobre partes do corpo, direções espaciais e semântica de movimento diretamente ao raciocínio sobre movimento, sem exigir codificadores aprendidos ou módulos de alinhamento. Demonstramos que esta abordagem supera os resultados mais avançados tanto em resposta a perguntas sobre movimento (66,7% no BABEL-QA, 90,1% no HuMMan-QA) quanto em legendagem de movimento (R@1 de 0,584, CIDEr de 53,16 no HumanML3D), ultrapassando todos os métodos anteriores. O SMD oferece ainda benefícios práticos: a mesma entrada de texto funciona em diferentes LLMs com apenas uma adaptação leve LoRA (validada em 8 LLMs de 6 famílias de modelos), e sua representação legível por humanos permite uma análise de atenção interpretável sobre as descrições de movimento. Código, dados e adaptadores LoRA pré-treinados estão disponíveis em https://yaozhang182.github.io/motion-smd/.

English

The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.

Compreensão de Movimento Humano sem Codificação por meio de Descrições Estruturadas de Movimento

Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Resumo

Support