DrawMotion: Het genereren van 3D-menselijke bewegingen door vrijhandtekenen

Samenvatting

Tekst-naar-bewegingsgeneratie, die tekstuele beschrijvingen vertaalt naar menselijke bewegingen, staat voor de uitdaging dat gebruikers vaak moeite hebben om hun bedoelde bewegingen alleen via tekst nauwkeurig over te brengen. Om dit probleem aan te pakken, introduceert dit artikel DrawMotion, een efficiënt diffusiegebaseerd raamwerk dat is ontworpen voor multi-conditiescenario's. DrawMotion genereert bewegingen op basis van zowel een conventionele tekstconditie als een nieuwe handtekenconditie, die respectievelijk semantische en ruimtelijke controle over de gegenereerde bewegingen bieden. Specifiek pakken we de gedetailleerde bewegingsgeneratietaak aan vanuit drie perspectieven: 1) vrijhandtekenconditie. Om de door gebruikers bedoelde bewegingen nauwkeurig vast te leggen zonder omslachtige tekstuele invoer, ontwikkelen we een algoritme om automatisch met de hand getekende stokfiguurschetsen te genereren in verschillende datasetformaten; 2) multi-conditiefusie. We stellen een Multi-Conditiemodule (MCM) voor die wordt geïntegreerd in het diffusieproces, waardoor het model alle mogelijke combinaties van condities kan benutten terwijl de rekencomplexiteit wordt verminderd vergeleken met conventionele benaderingen; en 3) trainingsvrije sturing. Opmerkelijk is dat de MCM in DrawMotion ervoor zorgt dat de tussenliggende kenmerken in een continue ruimte liggen, waardoor classificator-sturingsgradiënten de kenmerken kunnen updaten en zo de gegenereerde bewegingen afstemmen op gebruikersintenties terwijl de betrouwbaarheid behouden blijft. Kwantitatieve experimenten en gebruikersstudies tonen aan dat de vrijhandtekenbenadering de gebruikstijd met ongeveer 46,7% vermindert bij het genereren van bewegingen die aansluiten bij hun verbeelding. De code, demo's en relevante gegevens zijn openbaar beschikbaar op https://github.com/InvertedForest/DrawMotion.

English

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.