DrawMotion: Generación de movimientos humanos en 3D mediante dibujo a mano alzada

Resumen

La generación de texto a movimiento, que traduce descripciones textuales en movimientos humanos, enfrenta el desafío de que los usuarios a menudo tienen dificultades para transmitir con precisión los movimientos deseados solo mediante texto. Para abordar este problema, este artículo presenta DrawMotion, un marco eficiente basado en difusión diseñado para escenarios de múltiples condiciones. DrawMotion genera movimientos basándose tanto en una condición textual convencional como en una novedosa condición de dibujo a mano alzada, que proporcionan control semántico y espacial sobre los movimientos generados, respectivamente. Específicamente, abordamos la tarea de generación de movimientos detallados desde tres perspectivas: 1) condición de dibujo a mano alzada. Para capturar con precisión los movimientos deseados por los usuarios sin requerir una entrada textual tediosa, desarrollamos un algoritmo para generar automáticamente bocetos de figuras de palo dibujados a mano en diferentes formatos de conjuntos de datos; 2) fusión de múltiples condiciones. Proponemos un Módulo de Múltiples Condiciones (MCM) que se integra en el proceso de difusión, permitiendo al modelo explotar todas las combinaciones posibles de condiciones mientras reduce la complejidad computacional en comparación con los enfoques convencionales; y 3) guía sin entrenamiento. Notablemente, el MCM en DrawMotion asegura que sus características intermedias se encuentren en un espacio continuo, permitiendo que los gradientes de guía del clasificador actualicen las características y así alineen los movimientos generados con las intenciones del usuario mientras preservan la fidelidad. Experimentos cuantitativos y estudios de usuarios demuestran que el enfoque de dibujo a mano alzada reduce el tiempo del usuario en aproximadamente un 46,7% al generar movimientos alineados con su imaginación. El código, las demostraciones y los datos relevantes están disponibles públicamente en https://github.com/InvertedForest/DrawMotion.

English

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.