IAM: Generación Conjunta de Movimiento y Forma Humana con Conciencia de la Identidad
IAM: Identity-Aware Human Motion and Shape Joint Generation
April 28, 2026
Autores: Wenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An
cs.AI
Resumen
Los recientes avances en la generación de movimiento humano basada en texto permiten a los modelos sintetizar secuencias de movimiento realistas a partir de descripciones en lenguaje natural. Sin embargo, la mayoría de los enfoques existentes asumen un movimiento neutro en cuanto a la identidad y generan movimientos utilizando una representación corporal canónica, ignorando la fuerte influencia de la morfología corporal en la dinámica del movimiento. En la práctica, atributos como las proporciones corporales, la distribución de la masa y la edad afectan significativamente a la forma en que se realizan las acciones, y descuidar este acoplamiento a menudo conduce a movimientos físicamente inconsistentes. Proponemos un marco de generación de movimiento consciente de la identidad que modela explícitamente la relación entre la morfología corporal y la dinámica del movimiento. En lugar de depender de mediciones geométricas explícitas, la identidad se representa utilizando señales multimodales, incluidas descripciones en lenguaje natural y señales visuales. Además, introducimos un paradigma de generación conjunta de movimiento y forma que sintetiza simultáneamente secuencias de movimiento y parámetros de la forma corporal, permitiendo que las señales de identidad modulen directamente la dinámica del movimiento. Experimentos exhaustivos en conjuntos de datos de captura de movimiento y en vídeos a gran escala en entornos naturales demuestran una mejora en el realismo del movimiento y en la coherencia movimiento-identidad, manteniendo una alta calidad de movimiento. Página del proyecto: https://vjwq.github.io/IAM
English
Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM