Story-to-Motion : Synthétiser des animations de personnages infinies et contrôlables à partir de texte long
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text
November 13, 2023
Auteurs: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI
Résumé
La génération de mouvements humains naturels à partir d'une histoire a le potentiel de transformer le paysage des industries de l'animation, du jeu vidéo et du cinéma. Une nouvelle tâche complexe, appelée Story-to-Motion, émerge lorsque les personnages doivent se déplacer vers divers lieux et effectuer des mouvements spécifiques en fonction d'une longue description textuelle. Cette tâche nécessite une fusion entre un contrôle de bas niveau (trajectoires) et un contrôle de haut niveau (sémantique des mouvements). Les travaux précédents sur le contrôle des personnages et la génération de mouvements à partir de texte ont abordé des aspects connexes, mais une solution complète reste insaisissable : les méthodes de contrôle des personnages ne gèrent pas les descriptions textuelles, tandis que les méthodes de génération de mouvements à partir de texte manquent de contraintes de position et produisent souvent des mouvements instables. Face à ces limitations, nous proposons un système novateur qui génère des mouvements et des trajectoires contrôlables, de longueur infinie, alignés sur le texte d'entrée. (1) Nous exploitons les modèles de langage de grande envergure contemporains pour agir comme un planificateur de mouvements piloté par le texte, extraire une série de triplets (texte, position, durée) à partir de longs textes. (2) Nous développons un schéma de récupération de mouvements piloté par le texte, intégrant un appariement de mouvements avec des contraintes sémantiques et de trajectoire. (3) Nous concevons un transformateur à masque progressif qui traite les artefacts courants dans les transitions de mouvements, tels que les poses non naturelles et le glissement des pieds. Au-delà de son rôle pionnier en tant que première solution complète pour Story-to-Motion, notre système est évalué sur trois sous-tâches distinctes : le suivi de trajectoire, la composition temporelle d'actions et le mélange de mouvements, où il surpasse les méthodes de synthèse de mouvements de pointe précédentes dans tous les domaines. Page d'accueil : https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform
the landscape of animation, gaming, and film industries. A new and challenging
task, Story-to-Motion, arises when characters are required to move to various
locations and perform specific motions based on a long text description. This
task demands a fusion of low-level control (trajectories) and high-level
control (motion semantics). Previous works in character control and
text-to-motion have addressed related aspects, yet a comprehensive solution
remains elusive: character control methods do not handle text description,
whereas text-to-motion methods lack position constraints and often produce
unstable motions. In light of these limitations, we propose a novel system that
generates controllable, infinitely long motions and trajectories aligned with
the input text. (1) We leverage contemporary Large Language Models to act as a
text-driven motion scheduler to extract a series of (text, position, duration)
pairs from long text. (2) We develop a text-driven motion retrieval scheme that
incorporates motion matching with motion semantic and trajectory constraints.
(3) We design a progressive mask transformer that addresses common artifacts in
the transition motion such as unnatural pose and foot sliding. Beyond its
pioneering role as the first comprehensive solution for Story-to-Motion, our
system undergoes evaluation across three distinct sub-tasks: trajectory
following, temporal action composition, and motion blending, where it
outperforms previous state-of-the-art motion synthesis methods across the
board. Homepage: https://story2motion.github.io/.