CrowdMoGen: Zero-Shot Tekstgestuurde Generatie van Collectieve Beweging
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Auteurs: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Samenvatting
Crowd Motion Generation is essentieel in entertainmentindustrieën zoals animatie en games, evenals in strategische domeinen zoals stedelijke simulatie en planning. Deze nieuwe taak vereist een ingewikkelde integratie van controle en generatie om realistische crowd-dynamiek te synthetiseren onder specifieke ruimtelijke en semantische beperkingen, waarvan de uitdagingen nog niet volledig zijn onderzocht. Enerzijds richten bestaande modellen voor menselijke bewegingsgeneratie zich doorgaans op individueel gedrag, waarbij de complexiteit van collectief gedrag wordt verwaarloosd. Anderzijds zijn recente methoden voor multi-persoonsbewegingsgeneratie sterk afhankelijk van vooraf gedefinieerde scenario’s en beperkt tot een vast, klein aantal interpersoonlijke interacties, wat hun praktische toepasbaarheid belemmert. Om deze uitdagingen te overwinnen, introduceren we CrowdMoGen, een zero-shot tekstgestuurd framework dat de kracht van Large Language Models (LLM) benut om collectieve intelligentie in het bewegingsgeneratieframework te integreren als leidraad, waardoor generaliseerbare planning en generatie van crowd-bewegingen mogelijk wordt zonder gepaarde trainingsdata. Ons framework bestaat uit twee belangrijke componenten: 1) de Crowd Scene Planner, die leert om bewegingen en dynamiek te coördineren volgens specifieke scènecontexten of geïntroduceerde verstoringen, en 2) de Collective Motion Generator, die efficiënt de vereiste collectieve bewegingen synthetiseert op basis van holistische plannen. Uitgebreide kwantitatieve en kwalitatieve experimenten hebben de effectiviteit van ons framework bevestigd, dat niet alleen een kritieke leemte opvult door schaalbare en generaliseerbare oplossingen te bieden voor de Crowd Motion Generation-taak, maar ook een hoog realisme en flexibiliteit bereikt.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.