Story-to-Motion: Síntesis de animación de personajes infinita y controlable a partir de texto extenso
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text
November 13, 2023
Autores: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI
Resumen
Generar movimiento humano natural a partir de una historia tiene el potencial de transformar el panorama de las industrias de animación, videojuegos y cine. Surge una tarea nueva y desafiante, Story-to-Motion, cuando se requiere que los personajes se desplacen a varias ubicaciones y realicen movimientos específicos basados en una descripción textual extensa. Esta tarea exige una fusión de control de bajo nivel (trayectorias) y control de alto nivel (semántica del movimiento). Trabajos previos en control de personajes y texto-a-movimiento han abordado aspectos relacionados, pero una solución integral sigue siendo esquiva: los métodos de control de personajes no manejan descripciones textuales, mientras que los métodos de texto-a-movimiento carecen de restricciones de posición y a menudo producen movimientos inestables. Ante estas limitaciones, proponemos un sistema novedoso que genera movimientos y trayectorias controlables, infinitamente largos y alineados con el texto de entrada. (1) Aprovechamos los modelos de lenguaje de gran escala contemporáneos para actuar como un planificador de movimientos impulsado por texto, extrayendo una serie de pares (texto, posición, duración) de textos largos. (2) Desarrollamos un esquema de recuperación de movimientos impulsado por texto que incorpora la coincidencia de movimientos con restricciones semánticas y de trayectoria. (3) Diseñamos un transformador progresivo con máscara que aborda artefactos comunes en los movimientos de transición, como posturas antinaturales y deslizamiento de pies. Más allá de su papel pionero como la primera solución integral para Story-to-Motion, nuestro sistema se evalúa en tres sub-tareas distintas: seguimiento de trayectorias, composición temporal de acciones y mezcla de movimientos, donde supera a los métodos de síntesis de movimiento más avanzados en todos los aspectos. Página web: https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform
the landscape of animation, gaming, and film industries. A new and challenging
task, Story-to-Motion, arises when characters are required to move to various
locations and perform specific motions based on a long text description. This
task demands a fusion of low-level control (trajectories) and high-level
control (motion semantics). Previous works in character control and
text-to-motion have addressed related aspects, yet a comprehensive solution
remains elusive: character control methods do not handle text description,
whereas text-to-motion methods lack position constraints and often produce
unstable motions. In light of these limitations, we propose a novel system that
generates controllable, infinitely long motions and trajectories aligned with
the input text. (1) We leverage contemporary Large Language Models to act as a
text-driven motion scheduler to extract a series of (text, position, duration)
pairs from long text. (2) We develop a text-driven motion retrieval scheme that
incorporates motion matching with motion semantic and trajectory constraints.
(3) We design a progressive mask transformer that addresses common artifacts in
the transition motion such as unnatural pose and foot sliding. Beyond its
pioneering role as the first comprehensive solution for Story-to-Motion, our
system undergoes evaluation across three distinct sub-tasks: trajectory
following, temporal action composition, and motion blending, where it
outperforms previous state-of-the-art motion synthesis methods across the
board. Homepage: https://story2motion.github.io/.