CrowdMoGen: ゼロショットテキスト駆動型集団動作生成
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
著者: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
要旨
群衆動作生成は、アニメーションやゲームなどのエンターテインメント産業だけでなく、都市シミュレーションや計画などの戦略的領域においても不可欠です。この新しいタスクでは、特定の空間的および意味的制約の下で群衆のダイナミクスを現実的に合成するために、制御と生成の複雑な統合が必要であり、その課題はまだ十分に探求されていません。一方で、既存の人間動作生成モデルは通常、個人の行動に焦点を当てており、集団行動の複雑さを無視しています。他方で、最近の多人数動作生成手法は、事前に定義されたシナリオに大きく依存し、固定された少数の人間間の相互作用に限定されているため、実用性が妨げられています。これらの課題を克服するために、我々はCrowdMoGenを紹介します。これは、大規模言語モデル(LLM)の力を活用して集団的知能を動作生成フレームワークにガイダンスとして組み込み、ペアリングされたトレーニングデータなしで群衆動作の汎用的な計画と生成を可能にするゼロショットテキスト駆動型フレームワークです。我々のフレームワークは、2つの主要なコンポーネントで構成されています:1)特定のシーンコンテキストまたは導入された摂動に従って動作とダイナミクスを調整することを学ぶCrowd Scene Planner、および2)全体的な計画に基づいて必要な集団動作を効率的に合成するCollective Motion Generatorです。広範な定量的および定性的実験により、我々のフレームワークの有効性が検証されました。これは、群衆動作生成タスクに対するスケーラブルで汎用的なソリューションを提供することで重要なギャップを埋めるだけでなく、高いリアリズムと柔軟性を達成しています。
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.Summary
AI-Generated Summary