Story-to-Motion: Sintesi di Animazioni di Personaggi Infinite e Controllabili da Testi Lunghi

Abstract

Generare movimenti umani naturali da una storia ha il potenziale di trasformare il panorama delle industrie dell'animazione, dei giochi e del cinema. Una nuova e impegnativa sfida, denominata Story-to-Motion, emerge quando i personaggi devono spostarsi in varie posizioni ed eseguire movimenti specifici basati su una descrizione testuale lunga. Questo compito richiede una fusione di controllo a basso livello (traiettorie) e controllo ad alto livello (semantica del movimento). I lavori precedenti nel controllo dei personaggi e nel text-to-motion hanno affrontato aspetti correlati, ma una soluzione completa rimane sfuggente: i metodi di controllo dei personaggi non gestiscono la descrizione testuale, mentre i metodi text-to-motion mancano di vincoli di posizione e spesso producono movimenti instabili. Alla luce di queste limitazioni, proponiamo un sistema innovativo che genera movimenti controllabili, infinitamente lunghi e traiettorie allineate con il testo di input. (1) Sfruttiamo i moderni Large Language Model per agire come pianificatori di movimenti guidati dal testo, estraendo una serie di coppie (testo, posizione, durata) da testi lunghi. (2) Sviluppiamo uno schema di recupero del movimento guidato dal testo che incorpora il matching del movimento con vincoli semantici e di traiettoria. (3) Progettiamo un transformer progressivo con maschera che affronta gli artefatti comuni nei movimenti di transizione, come pose innaturali e scivolamenti dei piedi. Oltre al suo ruolo pionieristico come prima soluzione completa per Story-to-Motion, il nostro sistema viene valutato in tre sottocompiti distinti: seguimento della traiettoria, composizione temporale delle azioni e blending dei movimenti, dove supera i precedenti metodi all'avanguardia nella sintesi del movimento. Homepage: https://story2motion.github.io/.

English

Generating natural human motion from a story has the potential to transform the landscape of animation, gaming, and film industries. A new and challenging task, Story-to-Motion, arises when characters are required to move to various locations and perform specific motions based on a long text description. This task demands a fusion of low-level control (trajectories) and high-level control (motion semantics). Previous works in character control and text-to-motion have addressed related aspects, yet a comprehensive solution remains elusive: character control methods do not handle text description, whereas text-to-motion methods lack position constraints and often produce unstable motions. In light of these limitations, we propose a novel system that generates controllable, infinitely long motions and trajectories aligned with the input text. (1) We leverage contemporary Large Language Models to act as a text-driven motion scheduler to extract a series of (text, position, duration) pairs from long text. (2) We develop a text-driven motion retrieval scheme that incorporates motion matching with motion semantic and trajectory constraints. (3) We design a progressive mask transformer that addresses common artifacts in the transition motion such as unnatural pose and foot sliding. Beyond its pioneering role as the first comprehensive solution for Story-to-Motion, our system undergoes evaluation across three distinct sub-tasks: trajectory following, temporal action composition, and motion blending, where it outperforms previous state-of-the-art motion synthesis methods across the board. Homepage: https://story2motion.github.io/.

Story-to-Motion: Sintesi di Animazioni di Personaggi Infinite e Controllabili da Testi Lunghi

Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

Abstract

Support