CrowdMoGen : Génération de mouvements collectifs pilotée par texte en zero-shot
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Auteurs: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Résumé
La génération de mouvements de foule est essentielle dans les industries du divertissement telles que l'animation et les jeux, ainsi que dans des domaines stratégiques comme la simulation urbaine et la planification. Cette nouvelle tâche nécessite une intégration complexe de contrôle et de génération pour synthétiser de manière réaliste la dynamique des foules sous des contraintes spatiales et sémantiques spécifiques, dont les défis restent encore à explorer pleinement. D'une part, les modèles existants de génération de mouvements humains se concentrent généralement sur les comportements individuels, négligeant les complexités des comportements collectifs. D'autre part, les méthodes récentes pour la génération de mouvements multi-personnes dépendent fortement de scénarios prédéfinis et se limitent à un nombre fixe et réduit d'interactions interpersonnelles, ce qui limite leur praticabilité. Pour surmonter ces défis, nous introduisons CrowdMoGen, un framework piloté par texte en mode zero-shot qui exploite la puissance des modèles de langage à grande échelle (LLM) pour intégrer l'intelligence collective dans le cadre de génération de mouvements comme guide, permettant ainsi une planification et une génération généralisables des mouvements de foule sans données d'apprentissage appariées. Notre framework se compose de deux éléments clés : 1) un planificateur de scènes de foule qui apprend à coordonner les mouvements et la dynamique en fonction des contextes de scène spécifiques ou des perturbations introduites, et 2) un générateur de mouvements collectifs qui synthétise efficacement les mouvements collectifs requis sur la base des plans holistiques. Des expériences quantitatives et qualitatives approfondies ont validé l'efficacité de notre framework, qui comble une lacune critique en fournissant des solutions évolutives et généralisables pour la tâche de génération de mouvements de foule, tout en atteignant des niveaux élevés de réalisme et de flexibilité.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.Summary
AI-Generated Summary