IAM: Identitätsbewusste gemeinsame Generierung von menschlicher Bewegung und Form

Zusammenfassung

Jüngste Fortschritte bei der textgesteuerten Erzeugung menschlicher Bewegungen ermöglichen es Modellen, realistische Bewegungssequenzen aus natürlichen Sprachbeschreibungen zu synthetisieren. Die meisten bestehenden Ansätze gehen jedoch von identitätsneutralen Bewegungen aus und erzeugen Bewegungen unter Verwendung einer kanonischen Körperdarstellung, wobei der starke Einfluss der Körpermorphologie auf die Bewegungsdynamik ignoriert wird. In der Praxis beeinflussen Attribute wie Körperproportionen, Massenverteilung und Alter maßgeblich, wie Handlungen ausgeführt werden, und die Vernachlässigung dieser Kopplung führt oft zu physikalisch inkonsistenten Bewegungen. Wir schlagen ein identitätsbewusstes Bewegungsgenerierungsframework vor, das die Beziehung zwischen Körpermorphologie und Bewegungsdynamik explizit modelliert. Anstatt sich auf explizite geometrische Messungen zu verlassen, wird die Identität durch multimodale Signale repräsentiert, einschließlich natürlicher Sprachbeschreibungen und visueller Hinweise. Weiterhin führen wir ein Paradigma zur gemeinsamen Bewegungs- und Formgenerierung ein, das gleichzeitig Bewegungssequenzen und Körperformparameter synthetisiert und es Identitätshinweisen ermöglicht, die Bewegungsdynamik direkt zu modulieren. Umfangreiche Experimente mit Motion-Capture-Datensätzen und großen Mengen an In-the-Wild-Videos demonstrieren eine verbesserte Bewegungsrealität und Bewegung-Identitäts-Konsistenz bei gleichbleibend hoher Bewegungsqualität. Projektseite: https://vjwq.github.io/IAM

English

Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM

IAM: Identitätsbewusste gemeinsame Generierung von menschlicher Bewegung und Form

IAM: Identity-Aware Human Motion and Shape Joint Generation

Zusammenfassung

Support