DrawMotion : Génération de mouvements humains 3D par dessin à main levée

Résumé

La génération de mouvement à partir de texte, qui traduit des descriptions textuelles en mouvements humains, est confrontée au défi que les utilisateurs ont souvent du mal à exprimer précisément leurs intentions de mouvement uniquement par le texte. Pour résoudre ce problème, cet article présente DrawMotion, un cadre efficace basé sur la diffusion conçu pour des scénarios multi-conditions. DrawMotion génère des mouvements à partir à la fois d'une condition textuelle conventionnelle et d'une nouvelle condition de dessin à main levée, qui assurent respectivement un contrôle sémantique et spatial sur les mouvements générés. Plus précisément, nous abordons la tâche de génération de mouvement à grain fin sous trois angles : 1) la condition de dessin à main levée. Afin de capturer avec précision les mouvements souhaités par les utilisateurs sans nécessiter une saisie textuelle fastidieuse, nous développons un algorithme pour générer automatiquement des croquis de bonhommes allumettes dessinés à la main dans différents formats de jeux de données ; 2) la fusion multi-conditions. Nous proposons un Module Multi-Conditions (MCM) intégré dans le processus de diffusion, permettant au modèle d'exploiter toutes les combinaisons possibles de conditions tout en réduisant la complexité de calcul par rapport aux approches conventionnelles ; et 3) l'orientation sans entraînement. Notamment, le MCM dans DrawMotion garantit que ses caractéristiques intermédiaires se situent dans un espace continu, permettant aux gradients de guidage par classifieur de mettre à jour les caractéristiques et ainsi d'aligner les mouvements générés sur les intentions des utilisateurs tout en préservant la fidélité. Des expériences quantitatives et des études utilisateurs démontrent que l'approche de dessin à main levée réduit le temps utilisateur d'environ 46,7 % lors de la génération de mouvements conformes à leur imagination. Le code, les démonstrations et les données pertinentes sont disponibles publiquement à l'adresse https://github.com/InvertedForest/DrawMotion.

English

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.