Story-to-Motion: Sintesi di Animazioni di Personaggi Infinite e Controllabili da Testi Lunghi
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text
November 13, 2023
Autori: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI
Abstract
Generare movimenti umani naturali da una storia ha il potenziale di trasformare il panorama delle industrie dell'animazione, dei giochi e del cinema. Una nuova e impegnativa sfida, denominata Story-to-Motion, emerge quando i personaggi devono spostarsi in varie posizioni ed eseguire movimenti specifici basati su una descrizione testuale lunga. Questo compito richiede una fusione di controllo a basso livello (traiettorie) e controllo ad alto livello (semantica del movimento). I lavori precedenti nel controllo dei personaggi e nel text-to-motion hanno affrontato aspetti correlati, ma una soluzione completa rimane sfuggente: i metodi di controllo dei personaggi non gestiscono la descrizione testuale, mentre i metodi text-to-motion mancano di vincoli di posizione e spesso producono movimenti instabili. Alla luce di queste limitazioni, proponiamo un sistema innovativo che genera movimenti controllabili, infinitamente lunghi e traiettorie allineate con il testo di input. (1) Sfruttiamo i moderni Large Language Model per agire come pianificatori di movimenti guidati dal testo, estraendo una serie di coppie (testo, posizione, durata) da testi lunghi. (2) Sviluppiamo uno schema di recupero del movimento guidato dal testo che incorpora il matching del movimento con vincoli semantici e di traiettoria. (3) Progettiamo un transformer progressivo con maschera che affronta gli artefatti comuni nei movimenti di transizione, come pose innaturali e scivolamenti dei piedi. Oltre al suo ruolo pionieristico come prima soluzione completa per Story-to-Motion, il nostro sistema viene valutato in tre sottocompiti distinti: seguimento della traiettoria, composizione temporale delle azioni e blending dei movimenti, dove supera i precedenti metodi all'avanguardia nella sintesi del movimento. Homepage: https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform
the landscape of animation, gaming, and film industries. A new and challenging
task, Story-to-Motion, arises when characters are required to move to various
locations and perform specific motions based on a long text description. This
task demands a fusion of low-level control (trajectories) and high-level
control (motion semantics). Previous works in character control and
text-to-motion have addressed related aspects, yet a comprehensive solution
remains elusive: character control methods do not handle text description,
whereas text-to-motion methods lack position constraints and often produce
unstable motions. In light of these limitations, we propose a novel system that
generates controllable, infinitely long motions and trajectories aligned with
the input text. (1) We leverage contemporary Large Language Models to act as a
text-driven motion scheduler to extract a series of (text, position, duration)
pairs from long text. (2) We develop a text-driven motion retrieval scheme that
incorporates motion matching with motion semantic and trajectory constraints.
(3) We design a progressive mask transformer that addresses common artifacts in
the transition motion such as unnatural pose and foot sliding. Beyond its
pioneering role as the first comprehensive solution for Story-to-Motion, our
system undergoes evaluation across three distinct sub-tasks: trajectory
following, temporal action composition, and motion blending, where it
outperforms previous state-of-the-art motion synthesis methods across the
board. Homepage: https://story2motion.github.io/.