CrowdMoGen: Generierung kollektiver Bewegungen aus Text ohne vorheriges Training
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Autoren: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Zusammenfassung
Die Generierung von Menschenmengenbewegungen ist in Unterhaltungsindustrien wie Animation und Spielen sowie in strategischen Bereichen wie städtischer Simulation und Planung unerlässlich. Diese neue Aufgabe erfordert eine komplexe Integration von Steuerung und Generierung, um realistisch die Dynamik von Menschenmengen unter spezifischen räumlichen und semantischen Einschränkungen zu synthetisieren, deren Herausforderungen noch nicht vollständig erforscht sind. Einerseits konzentrieren sich bestehende Modelle zur Generierung menschlicher Bewegungen in der Regel auf individuelle Verhaltensweisen und vernachlässigen die Komplexitäten kollektiver Verhaltensweisen. Andererseits hängen aktuelle Methoden zur Generierung von Bewegungen mehrerer Personen stark von vordefinierten Szenarien ab und sind auf eine feste, kleine Anzahl von zwischenmenschlichen Interaktionen beschränkt, was ihre Praktikabilität einschränkt. Um diese Herausforderungen zu überwinden, stellen wir CrowdMoGen vor, ein textgesteuertes Framework ohne Trainingsdaten, das die kollektive Intelligenz in das Bewegungsgenerierungsframework als Leitfaden integriert, um eine generalisierbare Planung und Generierung von Menschenmengenbewegungen zu ermöglichen. Unser Framework besteht aus zwei Schlüsselkomponenten: 1) Crowd-Szenenplaner, der lernt, Bewegungen und Dynamiken gemäß spezifischer Szenenkontexte oder eingeführter Störungen zu koordinieren, und 2) Kollektiver Bewegungsgenerator, der effizient die erforderlichen kollektiven Bewegungen basierend auf den ganzheitlichen Plänen synthetisiert. Umfangreiche quantitative und qualitative Experimente haben die Wirksamkeit unseres Frameworks validiert, das nicht nur eine kritische Lücke füllt, indem es skalierbare und generalisierbare Lösungen für die Aufgabe der Generierung von Menschenmengenbewegungen bietet, sondern auch hohe Realitäts- und Flexibilitätsniveaus erreicht.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.Summary
AI-Generated Summary