DrawMotion: генерация 3D-движений человека по рисунку от руки

Аннотация

Генерация движений по тексту, которая переводит текстовые описания в движения человека, сталкивается с проблемой: пользователям часто сложно точно передать задуманные движения только с помощью текста. Для решения этой задачи в статье предлагается DrawMotion — эффективная диффузионная модель, предназначенная для многоусловных сценариев. DrawMotion генерирует движения на основе как обычного текстового условия, так и нового условия ручного рисунка, которые обеспечивают семантический и пространственный контроль над генерируемыми движениями соответственно. В частности, мы подходим к задаче генерации мелкозернистых движений с трех точек зрения: 1) условие ручного рисунка. Для точного захвата задуманных пользователем движений без необходимости утомительного текстового ввода мы разрабатываем алгоритм автоматической генерации нарисованных от руки схематичных человечков для различных форматов наборов данных; 2) слияние множества условий. Мы предлагаем Модуль Множественных Условий (ММУ), интегрированный в диффузионный процесс, позволяющий модели использовать все возможные комбинации условий при снижении вычислительной сложности по сравнению с традиционными подходами; 3) безучебное управление. Примечательно, что ММУ в DrawMotion обеспечивает нахождение его промежуточных признаков в непрерывном пространстве, что позволяет градиентам направляющего классификатора обновлять эти признаки и тем самым согласовывать генерируемые движения с намерениями пользователя, сохраняя при этом достоверность. Количественные эксперименты и опросы пользователей показывают, что подход с ручным рисованием сокращает время пользователя примерно на 46,7% при генерации движений, соответствующих его воображению. Код, демонстрации и соответствующие данные общедоступны по адресу https://github.com/InvertedForest/DrawMotion.

English

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.