CrowdMoGen: Generazione Zero-Shot di Movimenti Collettivi Guidati da Testo
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Autori: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Abstract
La Generazione del Movimento della Folla è essenziale nei settori dell'intrattenimento come l'animazione e i giochi, nonché in ambiti strategici come la simulazione e la pianificazione urbana. Questo nuovo compito richiede un'integrazione complessa di controllo e generazione per sintetizzare in modo realistico le dinamiche della folla sotto specifici vincoli spaziali e semantici, le cui sfide devono ancora essere completamente esplorate. Da un lato, i modelli esistenti per la generazione del movimento umano si concentrano tipicamente sui comportamenti individuali, trascurando le complessità dei comportamenti collettivi. Dall'altro, i metodi recenti per la generazione del movimento multi-persona dipendono fortemente da scenari predefiniti e sono limitati a un numero fisso e ridotto di interazioni interpersonali, limitandone così la praticità. Per superare queste sfide, introduciamo CrowdMoGen, un framework guidato da testo zero-shot che sfrutta la potenza dei Large Language Model (LLM) per incorporare l'intelligenza collettiva nel framework di generazione del movimento come guida, consentendo così una pianificazione e generazione generalizzabile dei movimenti della folla senza dati di training accoppiati. Il nostro framework è composto da due componenti chiave: 1) il Pianificatore della Scena della Folla, che impara a coordinare i movimenti e le dinamiche in base a contesti specifici della scena o a perturbazioni introdotte, e 2) il Generatore di Movimento Collettivo, che sintetizza in modo efficiente i movimenti collettivi richiesti basandosi su piani olistici. Esperimenti quantitativi e qualitativi estesi hanno validato l'efficacia del nostro framework, che non solo colma una lacuna critica fornendo soluzioni scalabili e generalizzabili per il compito di Generazione del Movimento della Folla, ma raggiunge anche alti livelli di realismo e flessibilità.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.