IAM: Generazione Congiunta di Movimento e Forma Umana con Consapevolezza dell'Identità
IAM: Identity-Aware Human Motion and Shape Joint Generation
April 28, 2026
Autori: Wenqi Jia, Zekun Li, Abhay Mittal, Chengcheng Tang, Chuan Guo, Lezi Wang, James Matthew Rehg, Lingling Tao, Size An
cs.AI
Abstract
I recenti progressi nella generazione di movimento umano basata su testo consentono ai modelli di sintetizzare sequenze di movimento realistiche a partire da descrizioni in linguaggio naturale. Tuttavia, la maggior parte degli approcci esistenti assume un movimento neutro rispetto all'identità e genera movimenti utilizzando una rappresentazione corporea canonica, ignorando la forte influenza della morfologia corporea sulla dinamica del movimento. Nella pratica, attributi come le proporzioni corporee, la distribuzione della massa e l'età influenzano significativamente il modo in cui le azioni vengono eseguite, e trascurare questo accoppiamento porta spesso a movimenti fisicamente inconsistenti. Proponiamo un framework di generazione del movimento consapevole dell'identità che modella esplicitamente la relazione tra morfologia corporea e dinamica del movimento. Invece di basarsi su misurazioni geometriche esplicite, l'identità è rappresentata utilizzando segnali multimodali, inclusi descrizioni in linguaggio naturale e segnali visivi. Introduciamo inoltre un paradigma di generazione congiunta movimento-forma che sintetizza simultaneamente sequenze di movimento e parametri della forma corporea, permettendo ai segnali di identità di modulare direttamente la dinamica del movimento. Esperimenti estensivi su dataset di motion capture e video in-the-wild su larga scala dimostrano un realismo del movimento e una coerenza movimento-identità migliorati, mantenendo al contempo un'elevata qualità del movimento. Pagina del progetto: https://vjwq.github.io/IAM
English
Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM