IAM: Geração Conjunta de Movimento e Forma Humana com Consciência de Identidade

Resumo

Os recentes avanços na geração de movimento humano orientada por texto permitem que modelos sintetizem sequências de movimento realistas a partir de descrições em linguagem natural. No entanto, a maioria das abordagens existentes assume movimentos neutros em termos de identidade e gera movimentos usando uma representação corporal canónica, ignorando a forte influência da morfologia corporal na dinâmica do movimento. Na prática, atributos como proporções corporais, distribuição de massa e idade afetam significativamente a forma como as ações são realizadas, e negligenciar este acoplamento frequentemente leva a movimentos fisicamente inconsistentes. Propomos uma estrutura de geração de movimento consciente da identidade que modela explicitamente a relação entre a morfologia corporal e a dinâmica do movimento. Em vez de depender de medições geométricas explícitas, a identidade é representada usando sinais multimodais, incluindo descrições em linguagem natural e pistas visuais. Introduzimos ainda um paradigma de geração conjunta de movimento e forma que sintetiza simultaneamente sequências de movimento e parâmetros de forma corporal, permitindo que pistas de identidade modulem diretamente a dinâmica do movimento. Experimentos extensivos em conjuntos de dados de captura de movimento e vídeos em larga escala do mundo real demonstram um realismo de movimento melhorado e uma maior consistência entre movimento e identidade, mantendo uma alta qualidade de movimento. Página do projeto: https://vjwq.github.io/IAM

English

Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM

IAM: Geração Conjunta de Movimento e Forma Humana com Consciência de Identidade

IAM: Identity-Aware Human Motion and Shape Joint Generation

Resumo

Support