IAM: Совместная генерация движения и формы человека с учетом идентичности

Аннотация

Последние достижения в области генерации движений человека на основе текста позволяют моделям синтезировать реалистичные последовательности движений из естественных языковых описаний. Однако большинство существующих подходов предполагают нейтральность движений к идентичности и генерируют движения, используя каноническое представление тела, игнорируя сильное влияние морфологии тела на динамику движений. На практике такие атрибуты, как пропорции тела, распределение массы и возраст, существенно влияют на то, как выполняются действия, и пренебрежение этой связью часто приводит к физически несоответствующим движениям. Мы предлагаем фреймворк для генерации движений с учетом идентичности, который явно моделирует взаимосвязь между морфологией тела и динамикой движений. Вместо использования явных геометрических измерений идентичность представляется с помощью мультимодальных сигналов, включая естественные языковые описания и визуальные подсказки. Мы также вводим парадигму совместной генерации движений и формы, которая одновременно синтезирует последовательности движений и параметры формы тела, позволяя сигналам идентичности напрямую модулировать динамику движений. Многочисленные эксперименты на наборах данных motion capture и крупномасштабных видеозаписях из реального мира демонстрируют повышенный реализм движений и согласованность движений с идентичностью при сохранении высокого качества движений. Страница проекта: https://vjwq.github.io/IAM

English

Recent advances in text-driven human motion generation enable models to synthesize realistic motion sequences from natural language descriptions. However, most existing approaches assume identity-neutral motion and generate movements using a canonical body representation, ignoring the strong influence of body morphology on motion dynamics. In practice, attributes such as body proportions, mass distribution, and age significantly affect how actions are performed, and neglecting this coupling often leads to physically inconsistent motions. We propose an identity-aware motion generation framework that explicitly models the relationship between body morphology and motion dynamics. Instead of relying on explicit geometric measurements, identity is represented using multimodal signals, including natural language descriptions and visual cues. We further introduce a joint motion-shape generation paradigm that simultaneously synthesizes motion sequences and body shape parameters, allowing identity cues to directly modulate motion dynamics. Extensive experiments on motion capture datasets and large-scale in-the-wild videos demonstrate improved motion realism and motion-identity consistency while maintaining high motion quality. Project page: https://vjwq.github.io/IAM

IAM: Совместная генерация движения и формы человека с учетом идентичности

IAM: Identity-Aware Human Motion and Shape Joint Generation

Аннотация

Support