CrowdMoGen: Generazione Zero-Shot di Movimenti Collettivi Guidati da Testo

Abstract

La Generazione del Movimento della Folla è essenziale nei settori dell'intrattenimento come l'animazione e i giochi, nonché in ambiti strategici come la simulazione e la pianificazione urbana. Questo nuovo compito richiede un'integrazione complessa di controllo e generazione per sintetizzare in modo realistico le dinamiche della folla sotto specifici vincoli spaziali e semantici, le cui sfide devono ancora essere completamente esplorate. Da un lato, i modelli esistenti per la generazione del movimento umano si concentrano tipicamente sui comportamenti individuali, trascurando le complessità dei comportamenti collettivi. Dall'altro, i metodi recenti per la generazione del movimento multi-persona dipendono fortemente da scenari predefiniti e sono limitati a un numero fisso e ridotto di interazioni interpersonali, limitandone così la praticità. Per superare queste sfide, introduciamo CrowdMoGen, un framework guidato da testo zero-shot che sfrutta la potenza dei Large Language Model (LLM) per incorporare l'intelligenza collettiva nel framework di generazione del movimento come guida, consentendo così una pianificazione e generazione generalizzabile dei movimenti della folla senza dati di training accoppiati. Il nostro framework è composto da due componenti chiave: 1) il Pianificatore della Scena della Folla, che impara a coordinare i movimenti e le dinamiche in base a contesti specifici della scena o a perturbazioni introdotte, e 2) il Generatore di Movimento Collettivo, che sintetizza in modo efficiente i movimenti collettivi richiesti basandosi su piani olistici. Esperimenti quantitativi e qualitativi estesi hanno validato l'efficacia del nostro framework, che non solo colma una lacuna critica fornendo soluzioni scalabili e generalizzabili per il compito di Generazione del Movimento della Folla, ma raggiunge anche alti livelli di realismo e flessibilità.

English

Crowd Motion Generation is essential in entertainment industries such as animation and games as well as in strategic fields like urban simulation and planning. This new task requires an intricate integration of control and generation to realistically synthesize crowd dynamics under specific spatial and semantic constraints, whose challenges are yet to be fully explored. On the one hand, existing human motion generation models typically focus on individual behaviors, neglecting the complexities of collective behaviors. On the other hand, recent methods for multi-person motion generation depend heavily on pre-defined scenarios and are limited to a fixed, small number of inter-person interactions, thus hampering their practicality. To overcome these challenges, we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the power of Large Language Model (LLM) to incorporate the collective intelligence into the motion generation framework as guidance, thereby enabling generalizable planning and generation of crowd motions without paired training data. Our framework consists of two key components: 1) Crowd Scene Planner that learns to coordinate motions and dynamics according to specific scene contexts or introduced perturbations, and 2) Collective Motion Generator that efficiently synthesizes the required collective motions based on the holistic plans. Extensive quantitative and qualitative experiments have validated the effectiveness of our framework, which not only fills a critical gap by providing scalable and generalizable solutions for Crowd Motion Generation task but also achieves high levels of realism and flexibility.

CrowdMoGen: Generazione Zero-Shot di Movimenti Collettivi Guidati da Testo

CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

Abstract

Support