Story-to-Motion: Sintetizando Animação de Personagens Infinita e Controlável a partir de Texto Longo
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text
November 13, 2023
Autores: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI
Resumo
Gerar movimentos humanos naturais a partir de uma história tem o potencial de transformar o cenário das indústrias de animação, jogos e cinema. Uma nova e desafiadora tarefa, Story-to-Motion, surge quando os personagens precisam se mover para vários locais e realizar movimentos específicos com base em uma longa descrição textual. Essa tarefa exige uma fusão de controle de baixo nível (trajetórias) e controle de alto nível (semântica do movimento). Trabalhos anteriores em controle de personagens e texto-para-movimento abordaram aspectos relacionados, mas uma solução abrangente ainda é evasiva: métodos de controle de personagens não lidam com descrições textuais, enquanto métodos de texto-para-movimento carecem de restrições de posição e frequentemente produzem movimentos instáveis. Diante dessas limitações, propomos um novo sistema que gera movimentos e trajetórias controláveis, infinitamente longos e alinhados com o texto de entrada. (1) Utilizamos modelos de linguagem de grande escala contemporâneos para atuar como um agendador de movimentos orientado por texto, extraindo uma série de pares (texto, posição, duração) de textos longos. (2) Desenvolvemos um esquema de recuperação de movimentos orientado por texto que incorpora correspondência de movimentos com restrições semânticas e de trajetória. (3) Projetamos um transformador progressivo com máscara que aborda artefatos comuns no movimento de transição, como posturas não naturais e deslizamento dos pés. Além de seu papel pioneiro como a primeira solução abrangente para Story-to-Motion, nosso sistema é avaliado em três sub-tarefas distintas: seguimento de trajetória, composição temporal de ações e mistura de movimentos, onde supera os métodos anteriores de síntese de movimento em todos os aspectos. Página inicial: https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform
the landscape of animation, gaming, and film industries. A new and challenging
task, Story-to-Motion, arises when characters are required to move to various
locations and perform specific motions based on a long text description. This
task demands a fusion of low-level control (trajectories) and high-level
control (motion semantics). Previous works in character control and
text-to-motion have addressed related aspects, yet a comprehensive solution
remains elusive: character control methods do not handle text description,
whereas text-to-motion methods lack position constraints and often produce
unstable motions. In light of these limitations, we propose a novel system that
generates controllable, infinitely long motions and trajectories aligned with
the input text. (1) We leverage contemporary Large Language Models to act as a
text-driven motion scheduler to extract a series of (text, position, duration)
pairs from long text. (2) We develop a text-driven motion retrieval scheme that
incorporates motion matching with motion semantic and trajectory constraints.
(3) We design a progressive mask transformer that addresses common artifacts in
the transition motion such as unnatural pose and foot sliding. Beyond its
pioneering role as the first comprehensive solution for Story-to-Motion, our
system undergoes evaluation across three distinct sub-tasks: trajectory
following, temporal action composition, and motion blending, where it
outperforms previous state-of-the-art motion synthesis methods across the
board. Homepage: https://story2motion.github.io/.