ChatPaper.aiChatPaper

Story-to-Motion : Synthétiser des animations de personnages infinies et contrôlables à partir de texte long

Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

November 13, 2023
Auteurs: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI

Résumé

La génération de mouvements humains naturels à partir d'une histoire a le potentiel de transformer le paysage des industries de l'animation, du jeu vidéo et du cinéma. Une nouvelle tâche complexe, appelée Story-to-Motion, émerge lorsque les personnages doivent se déplacer vers divers lieux et effectuer des mouvements spécifiques en fonction d'une longue description textuelle. Cette tâche nécessite une fusion entre un contrôle de bas niveau (trajectoires) et un contrôle de haut niveau (sémantique des mouvements). Les travaux précédents sur le contrôle des personnages et la génération de mouvements à partir de texte ont abordé des aspects connexes, mais une solution complète reste insaisissable : les méthodes de contrôle des personnages ne gèrent pas les descriptions textuelles, tandis que les méthodes de génération de mouvements à partir de texte manquent de contraintes de position et produisent souvent des mouvements instables. Face à ces limitations, nous proposons un système novateur qui génère des mouvements et des trajectoires contrôlables, de longueur infinie, alignés sur le texte d'entrée. (1) Nous exploitons les modèles de langage de grande envergure contemporains pour agir comme un planificateur de mouvements piloté par le texte, extraire une série de triplets (texte, position, durée) à partir de longs textes. (2) Nous développons un schéma de récupération de mouvements piloté par le texte, intégrant un appariement de mouvements avec des contraintes sémantiques et de trajectoire. (3) Nous concevons un transformateur à masque progressif qui traite les artefacts courants dans les transitions de mouvements, tels que les poses non naturelles et le glissement des pieds. Au-delà de son rôle pionnier en tant que première solution complète pour Story-to-Motion, notre système est évalué sur trois sous-tâches distinctes : le suivi de trajectoire, la composition temporelle d'actions et le mélange de mouvements, où il surpasse les méthodes de synthèse de mouvements de pointe précédentes dans tous les domaines. Page d'accueil : https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform the landscape of animation, gaming, and film industries. A new and challenging task, Story-to-Motion, arises when characters are required to move to various locations and perform specific motions based on a long text description. This task demands a fusion of low-level control (trajectories) and high-level control (motion semantics). Previous works in character control and text-to-motion have addressed related aspects, yet a comprehensive solution remains elusive: character control methods do not handle text description, whereas text-to-motion methods lack position constraints and often produce unstable motions. In light of these limitations, we propose a novel system that generates controllable, infinitely long motions and trajectories aligned with the input text. (1) We leverage contemporary Large Language Models to act as a text-driven motion scheduler to extract a series of (text, position, duration) pairs from long text. (2) We develop a text-driven motion retrieval scheme that incorporates motion matching with motion semantic and trajectory constraints. (3) We design a progressive mask transformer that addresses common artifacts in the transition motion such as unnatural pose and foot sliding. Beyond its pioneering role as the first comprehensive solution for Story-to-Motion, our system undergoes evaluation across three distinct sub-tasks: trajectory following, temporal action composition, and motion blending, where it outperforms previous state-of-the-art motion synthesis methods across the board. Homepage: https://story2motion.github.io/.
PDF290December 15, 2024