CrowdMoGen: Generación Colectiva de Movimiento sin Entrenamiento a partir de Texto
CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation
July 8, 2024
Autores: Xinying Guo, Mingyuan Zhang, Haozhe Xie, Chenyang Gu, Ziwei Liu
cs.AI
Resumen
La generación de movimiento de multitudes es esencial en industrias del entretenimiento como la animación y los videojuegos, así como en campos estratégicos como la simulación urbana y la planificación. Esta nueva tarea requiere una integración intrincada de control y generación para sintetizar de manera realista la dinámica de multitudes bajo restricciones espaciales y semánticas específicas, cuyos desafíos aún no han sido completamente explorados. Por un lado, los modelos existentes de generación de movimiento humano suelen centrarse en comportamientos individuales, descuidando las complejidades de los comportamientos colectivos. Por otro lado, los métodos recientes para la generación de movimiento de múltiples personas dependen en gran medida de escenarios predefinidos y están limitados a un número fijo y pequeño de interacciones entre personas, lo que dificulta su practicidad. Para superar estos desafíos, presentamos CrowdMoGen, un marco de trabajo impulsado por texto de cero disparos que aprovecha el poder de los Modelos de Lenguaje Grande (LLM) para incorporar la inteligencia colectiva en el marco de generación de movimiento como guía, permitiendo así la planificación y generación generalizables de movimientos de multitudes sin datos de entrenamiento emparejados. Nuestro marco de trabajo consta de dos componentes clave: 1) Planificador de Escena de Multitudes que aprende a coordinar movimientos y dinámicas según contextos de escena específicos o perturbaciones introducidas, y 2) Generador de Movimiento Colectivo que sintetiza eficientemente los movimientos colectivos requeridos en función de los planes holísticos. Experimentos cuantitativos y cualitativos extensos han validado la efectividad de nuestro marco de trabajo, que no solo llena una brecha crítica al proporcionar soluciones escalables y generalizables para la tarea de Generación de Movimiento de Multitudes, sino que también logra altos niveles de realismo y flexibilidad.
English
Crowd Motion Generation is essential in entertainment industries such as
animation and games as well as in strategic fields like urban simulation and
planning. This new task requires an intricate integration of control and
generation to realistically synthesize crowd dynamics under specific spatial
and semantic constraints, whose challenges are yet to be fully explored. On the
one hand, existing human motion generation models typically focus on individual
behaviors, neglecting the complexities of collective behaviors. On the other
hand, recent methods for multi-person motion generation depend heavily on
pre-defined scenarios and are limited to a fixed, small number of inter-person
interactions, thus hampering their practicality. To overcome these challenges,
we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the
power of Large Language Model (LLM) to incorporate the collective intelligence
into the motion generation framework as guidance, thereby enabling
generalizable planning and generation of crowd motions without paired training
data. Our framework consists of two key components: 1) Crowd Scene Planner that
learns to coordinate motions and dynamics according to specific scene contexts
or introduced perturbations, and 2) Collective Motion Generator that
efficiently synthesizes the required collective motions based on the holistic
plans. Extensive quantitative and qualitative experiments have validated the
effectiveness of our framework, which not only fills a critical gap by
providing scalable and generalizable solutions for Crowd Motion Generation task
but also achieves high levels of realism and flexibility.Summary
AI-Generated Summary