Story-to-Motion: Síntesis de animación de personajes infinita y controlable a partir de texto extenso

Resumen

Generar movimiento humano natural a partir de una historia tiene el potencial de transformar el panorama de las industrias de animación, videojuegos y cine. Surge una tarea nueva y desafiante, Story-to-Motion, cuando se requiere que los personajes se desplacen a varias ubicaciones y realicen movimientos específicos basados en una descripción textual extensa. Esta tarea exige una fusión de control de bajo nivel (trayectorias) y control de alto nivel (semántica del movimiento). Trabajos previos en control de personajes y texto-a-movimiento han abordado aspectos relacionados, pero una solución integral sigue siendo esquiva: los métodos de control de personajes no manejan descripciones textuales, mientras que los métodos de texto-a-movimiento carecen de restricciones de posición y a menudo producen movimientos inestables. Ante estas limitaciones, proponemos un sistema novedoso que genera movimientos y trayectorias controlables, infinitamente largos y alineados con el texto de entrada. (1) Aprovechamos los modelos de lenguaje de gran escala contemporáneos para actuar como un planificador de movimientos impulsado por texto, extrayendo una serie de pares (texto, posición, duración) de textos largos. (2) Desarrollamos un esquema de recuperación de movimientos impulsado por texto que incorpora la coincidencia de movimientos con restricciones semánticas y de trayectoria. (3) Diseñamos un transformador progresivo con máscara que aborda artefactos comunes en los movimientos de transición, como posturas antinaturales y deslizamiento de pies. Más allá de su papel pionero como la primera solución integral para Story-to-Motion, nuestro sistema se evalúa en tres sub-tareas distintas: seguimiento de trayectorias, composición temporal de acciones y mezcla de movimientos, donde supera a los métodos de síntesis de movimiento más avanzados en todos los aspectos. Página web: https://story2motion.github.io/.

English

Generating natural human motion from a story has the potential to transform the landscape of animation, gaming, and film industries. A new and challenging task, Story-to-Motion, arises when characters are required to move to various locations and perform specific motions based on a long text description. This task demands a fusion of low-level control (trajectories) and high-level control (motion semantics). Previous works in character control and text-to-motion have addressed related aspects, yet a comprehensive solution remains elusive: character control methods do not handle text description, whereas text-to-motion methods lack position constraints and often produce unstable motions. In light of these limitations, we propose a novel system that generates controllable, infinitely long motions and trajectories aligned with the input text. (1) We leverage contemporary Large Language Models to act as a text-driven motion scheduler to extract a series of (text, position, duration) pairs from long text. (2) We develop a text-driven motion retrieval scheme that incorporates motion matching with motion semantic and trajectory constraints. (3) We design a progressive mask transformer that addresses common artifacts in the transition motion such as unnatural pose and foot sliding. Beyond its pioneering role as the first comprehensive solution for Story-to-Motion, our system undergoes evaluation across three distinct sub-tasks: trajectory following, temporal action composition, and motion blending, where it outperforms previous state-of-the-art motion synthesis methods across the board. Homepage: https://story2motion.github.io/.

Story-to-Motion: Síntesis de animación de personajes infinita y controlable a partir de texto extenso

Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

Resumen

Support