Apprendre à communiquer localement pour la recherche de chemin multi-agent à grande échelle

Résumé

La recherche de chemins multi-agents (MAPF) est une abstraction largement utilisée pour les problèmes de planification de trajectoires multi-robots, où plusieurs agents homogènes se déplacent simultanément dans un environnement partagé. Bien que résoudre le MAPF de manière optimale soit NP-difficile, des solveurs scalables et efficaces sont essentiels pour des applications réelles telles que la logistique et les opérations de recherche et sauvetage. À cette fin, la communauté de recherche a proposé divers solveurs MAPF sous-optimaux décentralisés qui exploitent l'apprentissage automatique. De telles méthodes cadrent le MAPF (du point de vue d'un seul agent) comme un Dec-POMDP où, à chaque pas de temps, un agent doit décider d'une action en fonction de l'observation locale, et résolvent généralement le problème via l'apprentissage par renforcement ou l'apprentissage par imitation. Nous suivons la même approche mais introduisons en plus un module de communication apprenable conçu pour améliorer la coopération entre agents grâce à un partage efficace de caractéristiques. Nous présentons la Communication Locale pour la Recherche de Chemins Multi-Agents (LC-MAPF), un modèle pré-entraîné généralisable qui applique une communication multi-tour entre agents voisins pour échanger des informations et améliorer leur coordination. Nos expériences montrent que la méthode introduite surpasse les solveurs MAPF existants basés sur l'apprentissage, y compris les approches basées sur l'IL et le RL, selon diverses métriques dans un large éventail de scénarios de test (inédits). Fait remarquable, le mécanisme de communication introduit ne compromet pas la scalabilité de LC-MAPF, un goulot d'étranglement courant pour les solveurs MAPF basés sur la communication.

English

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.