Aprendiendo a comunicarse localmente para la búsqueda de caminos multiagente a gran escala

Resumen

La búsqueda de caminos multiagente (MAPF, por sus siglas en inglés) es una abstracción ampliamente utilizada para problemas de planificación de trayectorias multi-robot, donde múltiples agentes homogéneos se mueven simultáneamente en un entorno compartido. Aunque resolver MAPF de manera óptima es NP-difícil, contar con solucionadores escalables y eficientes es fundamental para aplicaciones del mundo real como la logística y la búsqueda y rescate. Con este fin, la comunidad investigadora ha propuesto diversos solucionadores MAPF subóptimos descentralizados que aprovechan el aprendizaje automático. Dichos métodos formulan MAPF (desde la perspectiva de un solo agente) como un Proceso de Decisión de Markov Parcialmente Observable Descentralizado (Dec-POMDP), donde en cada paso temporal un agente debe decidir una acción basándose en la observación local y, típicamente, resuelven el problema mediante aprendizaje por refuerzo o aprendizaje por imitación. Seguimos el mismo enfoque, pero además introducimos un módulo de comunicación aprendible diseñado para mejorar la cooperación entre agentes mediante un intercambio eficiente de características. Presentamos el módulo de Comunicación Local para Búsqueda de Caminos Multiagente (LC-MAPF), un modelo preentrenado generalizable que aplica comunicación multi-ronda entre agentes vecinos para intercambiar información y mejorar su coordinación. Nuestros experimentos muestran que el método introducido supera a los solucionadores MAPF existentes basados en aprendizaje, incluyendo enfoques basados en aprendizaje por imitación y aprendizaje por refuerzo, en diversas métricas dentro de un amplio rango de escenarios de prueba (no vistos). Notablemente, el mecanismo de comunicación introducido no compromete la escalabilidad de LC-MAPF, un cuello de botella común en los solucionadores MAPF basados en comunicación.

English

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.