CrowdMoGen: Geração de Movimento Coletivo Dirigido por Texto sem a Necessidade de Treinamento
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Autores: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Resumo
A geração de movimento de multidões é essencial em indústrias de entretenimento como animação e jogos, assim como em campos estratégicos como simulação urbana e planejamento. Essa nova tarefa requer uma integração intricada de controle e geração para sintetizar realisticamente a dinâmica de multidões sob restrições espaciais e semânticas específicas, cujos desafios ainda não foram totalmente explorados. Por um lado, os modelos existentes de geração de movimento humano geralmente se concentram em comportamentos individuais, negligenciando as complexidades dos comportamentos coletivos. Por outro lado, os métodos recentes para geração de movimento de múltiplas pessoas dependem fortemente de cenários predefinidos e são limitados a um número fixo e pequeno de interações entre pessoas, dificultando sua praticidade. Para superar esses desafios, apresentamos o CrowdMoGen, um framework orientado por texto de zero-shot que aproveita o poder do Modelo de Linguagem Grande (LLM) para incorporar a inteligência coletiva no framework de geração de movimento como orientação, permitindo assim o planejamento e a geração generalizáveis de movimentos de multidões sem dados de treinamento em pares. Nosso framework consiste em dois componentes principais: 1) Planejador de Cena de Multidão que aprende a coordenar movimentos e dinâmicas de acordo com contextos de cena específicos ou perturbações introduzidas, e 2) Gerador de Movimento Coletivo que sintetiza eficientemente os movimentos coletivos necessários com base nos planos holísticos. Experimentos quantitativos e qualitativos extensivos validaram a eficácia de nosso framework, que não apenas preenche uma lacuna crítica ao fornecer soluções escaláveis e generalizáveis para a tarefa de Geração de Movimento de Multidões, mas também alcança altos níveis de realismo e flexibilidade.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.