DrawMotion: Generierung menschlicher 3D-Bewegungen durch Freihandzeichnen

Zusammenfassung

Text-to-Motion-Generierung, bei der textuelle Beschreibungen in menschliche Bewegungen übersetzt werden, steht vor der Herausforderung, dass Nutzer oft Schwierigkeiten haben, ihre beabsichtigten Bewegungen allein durch Text präzise auszudrücken. Um dieses Problem zu lösen, führt dieses Papier DrawMotion ein, ein effizientes diffusionsbasiertes Framework, das für Szenarien mit mehreren Bedingungen ausgelegt ist. DrawMotion generiert Bewegungen basierend auf sowohl einer herkömmlichen Textbedingung als auch einer neuartigen Freihandzeichnungsbedingung, die jeweils semantische und räumliche Kontrolle über die generierten Bewegungen bieten. Im Einzelnen gehen wir die feinkörnige Bewegungsgenerierung aus drei Perspektiven an: 1) Freihandzeichnungsbedingung. Um die beabsichtigten Bewegungen der Nutzer genau zu erfassen, ohne aufwändige Texteingaben zu erfordern, entwickeln wir einen Algorithmus zur automatischen Generierung von handgezeichneten Strichmännchen-Skizzen über verschiedene Datensatzformate hinweg; 2) Mehrfachbedingungsfusion. Wir schlagen ein Multi-Condition Module (MCM) vor, das in den Diffusionsprozess integriert wird und es dem Modell ermöglicht, alle möglichen Bedingungskombinationen zu nutzen, während die Rechenkomplexität im Vergleich zu herkömmlichen Ansätzen reduziert wird; und 3) trainingsfreie Steuerung. Bemerkenswerterweise stellt das MCM in DrawMotion sicher, dass seine Zwischenmerkmale in einem kontinuierlichen Raum liegen, sodass Klassifikator-Guidance-Gradienten die Merkmale aktualisieren können und somit die generierten Bewegungen mit den Nutzerabsichten in Einklang bringen, während die Wiedergabetreue erhalten bleibt. Quantitative Experimente und Nutzerstudien zeigen, dass der Freihandzeichnungsansatz die Nutzerzeit um etwa 46,7 % reduziert, wenn Bewegungen generiert werden, die mit ihrer Vorstellung übereinstimmen. Der Code, Demos und relevante Daten sind öffentlich verfügbar unter https://github.com/InvertedForest/DrawMotion.

English

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.