ChatPaper.aiChatPaper

Story-to-Motion: Synthese unendlicher und steuerbarer Charakteranimation aus langen Texten

Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

November 13, 2023
Autoren: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI

Zusammenfassung

Die Erzeugung natürlicher menschlicher Bewegungen aus einer Geschichte hat das Potenzial, die Landschaft der Animations-, Gaming- und Filmindustrie zu revolutionieren. Eine neue und herausfordernde Aufgabe, Story-to-Motion, entsteht, wenn Charaktere sich an verschiedene Orte bewegen und spezifische Bewegungen basierend auf einer langen Textbeschreibung ausführen sollen. Diese Aufgabe erfordert eine Kombination aus Low-Level-Steuerung (Trajektorien) und High-Level-Steuerung (Bewegungssemantik). Frühere Arbeiten zur Charaktersteuerung und Text-zu-Bewegung haben verwandte Aspekte behandelt, doch eine umfassende Lösung bleibt schwer fassbar: Methoden zur Charaktersteuerung verarbeiten keine Textbeschreibungen, während Text-zu-Bewegung-Methoden Positionsbeschränkungen fehlen und oft instabile Bewegungen erzeugen. Angesichts dieser Einschränkungen schlagen wir ein neuartiges System vor, das kontrollierbare, unendlich lange Bewegungen und Trajektorien erzeugt, die mit dem Eingabetext übereinstimmen. (1) Wir nutzen zeitgenössische Large Language Models als textgesteuerten Bewegungsplaner, um eine Reihe von (Text, Position, Dauer)-Paaren aus langen Texten zu extrahieren. (2) Wir entwickeln ein textgesteuertes Bewegungsabrufschema, das Bewegungsabgleich mit Bewegungssemantik und Trajektorienbeschränkungen kombiniert. (3) Wir entwerfen einen progressiven Maskentransformer, der häufige Artefakte in Übergangsbewegungen wie unnatürliche Posen und Fußgleiten behandelt. Über seine Pionierrolle als erste umfassende Lösung für Story-to-Motion hinaus wird unser System in drei verschiedenen Teilaufgaben evaluiert: Trajektorienverfolgung, zeitliche Aktionskomposition und Bewegungsmischung, wo es bisherige state-of-the-art Bewegungsynthesemethoden durchweg übertrifft. Homepage: https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform the landscape of animation, gaming, and film industries. A new and challenging task, Story-to-Motion, arises when characters are required to move to various locations and perform specific motions based on a long text description. This task demands a fusion of low-level control (trajectories) and high-level control (motion semantics). Previous works in character control and text-to-motion have addressed related aspects, yet a comprehensive solution remains elusive: character control methods do not handle text description, whereas text-to-motion methods lack position constraints and often produce unstable motions. In light of these limitations, we propose a novel system that generates controllable, infinitely long motions and trajectories aligned with the input text. (1) We leverage contemporary Large Language Models to act as a text-driven motion scheduler to extract a series of (text, position, duration) pairs from long text. (2) We develop a text-driven motion retrieval scheme that incorporates motion matching with motion semantic and trajectory constraints. (3) We design a progressive mask transformer that addresses common artifacts in the transition motion such as unnatural pose and foot sliding. Beyond its pioneering role as the first comprehensive solution for Story-to-Motion, our system undergoes evaluation across three distinct sub-tasks: trajectory following, temporal action composition, and motion blending, where it outperforms previous state-of-the-art motion synthesis methods across the board. Homepage: https://story2motion.github.io/.
PDF290December 15, 2024