DrawMotion: Geração de Movimentos Humanos 3D por Desenho à Mão Livre

Resumo

Geração de texto para movimento, que traduz descrições textuais em movimentos humanos, enfrenta o desafio de que os usuários frequentemente têm dificuldade em transmitir precisamente seus movimentos pretendidos apenas por meio de texto. Para abordar essa questão, este artigo apresenta o DrawMotion, uma estrutura eficiente baseada em difusão projetada para cenários de múltiplas condições. O DrawMotion gera movimentos com base tanto em uma condição textual convencional quanto em uma nova condição de desenho à mão livre, que fornecem controle semântico e espacial sobre os movimentos gerados, respectivamente. Especificamente, abordamos a tarefa de geração de movimentos de granularidade fina sob três perspectivas: 1) condição de desenho à mão livre. Para capturar com precisão os movimentos pretendidos pelos usuários sem exigir entrada textual tediosa, desenvolvemos um algoritmo para gerar automaticamente esboços de bonecos palito desenhados à mão livre em diferentes formatos de conjuntos de dados; 2) fusão de múltiplas condições. Propomos um Módulo de Múltiplas Condições (MMC) que é integrado ao processo de difusão, permitindo que o modelo explore todas as combinações possíveis de condições, ao mesmo tempo que reduz a complexidade computacional em comparação com abordagens convencionais; e 3) orientação livre de treinamento. Notavelmente, o MMC no DrawMotion garante que suas características intermediárias estejam em um espaço contínuo, permitindo que gradientes de orientação por classificador atualizem essas características, alinhando assim os movimentos gerados com as intenções dos usuários, preservando a fidelidade. Experimentos quantitativos e estudos com usuários demonstram que a abordagem de desenho à mão livre reduz o tempo do usuário em aproximadamente 46,7% ao gerar movimentos alinhados com sua imaginação. O código, demonstrações e dados relevantes estão disponíveis publicamente em https://github.com/InvertedForest/DrawMotion.

English

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.