CrowdMoGen: Генерация коллективного движения на основе текста без обучения.
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Авторы: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Аннотация
Генерация движения толпы является важной задачей в индустрии развлечений, таких как анимация и игры, а также в стратегических областях, таких как городское моделирование и планирование. Эта новая задача требует сложной интеграции управления и генерации для реалистичного синтеза динамики толпы с учетом конкретных пространственных и семантических ограничений, чьи вызовы еще предстоит полностью исследовать. С одной стороны, существующие модели генерации движения человека обычно сосредотачиваются на индивидуальных поведенческих моделях, игнорируя сложности коллективных поведенческих моделей. С другой стороны, недавние методы генерации движения для нескольких людей сильно зависят от заранее определенных сценариев и ограничены фиксированным, небольшим количеством межличностных взаимодействий, что затрудняет их практическое применение. Для преодоления этих вызовов мы представляем CrowdMoGen, фреймворк, управляемый текстом с нулевой обучающей выборкой, который использует мощь больших языковых моделей (LLM) для интеграции коллективного интеллекта в фреймворк генерации движения в качестве руководства, тем самым обеспечивая обобщенное планирование и генерацию движения толпы без обучающих данных. Наш фреймворк состоит из двух ключевых компонентов: 1) Планировщик сцены толпы, который учится координировать движения и динамику в соответствии с конкретными контекстами сцены или введенными возмущениями, и 2) Генератор коллективного движения, который эффективно синтезирует необходимые коллективные движения на основе глобальных планов. Обширные количественные и качественные эксперименты подтвердили эффективность нашего фреймворка, который не только заполняет критическую пробел, предоставляя масштабируемые и обобщенные решения для задачи генерации движения толпы, но также достигает высокого уровня реализма и гибкости.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.Summary
AI-Generated Summary