IAM : Génération conjointe de mouvements et de formes humaines avec prise en compte de l'identité
IAM: Identity-Aware Human Motion and Shape Joint Generation
April 28, 2026
Auteurs: Wenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An
cs.AI
Résumé
Les progrès récents en génération de mouvements humains pilotée par texte permettent aux modèles de synthétiser des séquences de mouvement réalistes à partir de descriptions en langage naturel. Cependant, la plupart des approches existantes supposent un mouvement neutre en termes d'identité et génèrent des mouvements en utilisant une représentation corporelle canonique, ignorant la forte influence de la morphologie corporelle sur la dynamique du mouvement. En pratique, des attributs tels que les proportions corporelles, la distribution de la masse et l'âge affectent significativement la façon dont les actions sont exécutées, et négliger ce couplage conduit souvent à des mouvements physiquement incohérents. Nous proposons un cadre de génération de mouvement conscient de l'identité qui modélise explicitement la relation entre la morphologie corporelle et la dynamique du mouvement. Au lieu de s'appuyer sur des mesures géométriques explicites, l'identité est représentée à l'aide de signaux multimodaux, incluant des descriptions en langage naturel et des indices visuels. Nous introduisons en outre un paradigme de génération conjointe mouvement-forme qui synthétise simultanément des séquences de mouvement et des paramètres de forme corporelle, permettant aux indices d'identité de moduler directement la dynamique du mouvement. Des expériences approfondies sur des datasets de capture de mouvement et des vidéos à grande échelle en conditions réelles démontrent une amélioration du réalisme des mouvements et de la cohérence mouvement-identité tout en maintenant une haute qualité de mouvement. Page du projet : https://vjwq.github.io/IAM
English
Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM