Comprensión del Movimiento Humano sin Codificadores mediante Descripciones Estructuradas del Movimiento
Encoder-Free Human Motion Understanding via Structured Motion Descriptions
April 23, 2026
Autores: Yao Zhang, Zhuchenyang Liu, Thomas Ploetz, Yu Xiao
cs.AI
Resumen
Los conocimientos del mundo y las capacidades de razonamiento de los grandes modelos de lenguaje (LLM) basados en texto están avanzando rápidamente; sin embargo, los enfoques actuales para la comprensión del movimiento humano, incluyendo la respuesta a preguntas y la descripción de movimientos, no han explotado plenamente estas capacidades. Los métodos existentes basados en LLM generalmente aprenden la alineación movimiento-lenguaje mediante codificadores especializados que proyectan características del movimiento al espacio de incrustación del LLM, manteniéndose limitados por la representación y alineación multimodal. Inspirados por el análisis biomecánico, donde los ángulos articulares y la cinemática de partes corporales han servido históricamente como un lenguaje descriptivo preciso para el movimiento humano, proponemos la Descripción Estructurada del Movimiento (SMD), un enfoque determinista basado en reglas que convierte secuencias de posiciones articulares en descripciones en lenguaje natural estructurado de ángulos articulares, movimientos de partes corporales y trayectoria global. Al representar el movimiento como texto, SMD permite a los LLM aplicar su conocimiento preentrenado sobre partes corporales, direcciones espaciales y semántica del movimiento directamente al razonamiento cinético, sin requerir codificadores aprendidos o módulos de alineación. Demostramos que este enfoque supera los resultados más avanzados tanto en respuesta a preguntas sobre movimiento (66.7% en BABEL-QA, 90.1% en HuMMan-QA) como en descripción de movimiento (R@1 de 0.584, CIDEr de 53.16 en HumanML3D), superando todos los métodos anteriores. SMD ofrece además beneficios prácticos: la misma entrada de texto funciona en diferentes LLM con solo una adaptación ligera LoRA (validado en 8 LLM de 6 familias de modelos), y su representación legible para humanos permite un análisis de atención interpretable sobre las descripciones de movimiento. El código, datos y adaptadores LoRA preentrenados están disponibles en https://yaozhang182.github.io/motion-smd/.
English
The world knowledge and reasoning capabilities of text-based large language models (LLMs) are advancing rapidly, yet current approaches to human motion understanding, including motion question answering and captioning, have not fully exploited these capabilities. Existing LLM-based methods typically learn motion-language alignment through dedicated encoders that project motion features into the LLM's embedding space, remaining constrained by cross-modal representation and alignment. Inspired by biomechanical analysis, where joint angles and body-part kinematics have long served as a precise descriptive language for human movement, we propose Structured Motion Description (SMD), a rule-based, deterministic approach that converts joint position sequences into structured natural language descriptions of joint angles, body part movements, and global trajectory. By representing motion as text, SMD enables LLMs to apply their pretrained knowledge of body parts, spatial directions, and movement semantics directly to motion reasoning, without requiring learned encoders or alignment modules. We show that this approach goes beyond state-of-the-art results on both motion question answering (66.7\% on BABEL-QA, 90.1\% on HuMMan-QA) and motion captioning (R@1 of 0.584, CIDEr of 53.16 on HumanML3D), surpassing all prior methods. SMD additionally offers practical benefits: the same text input works across different LLMs with only lightweight LoRA adaptation (validated on 8 LLMs from 6 model families), and its human-readable representation enables interpretable attention analysis over motion descriptions. Code, data, and pretrained LoRA adapters are available at https://yaozhang182.github.io/motion-smd/.