Lokales Kommunizieren Lernen für großskalige Multi-Agenten-Pfadplanung

Zusammenfassung

Die Multi-Agenten-Pfadfindung (MAPF) ist eine weit verbreitete Abstraktion für Multi-Roboter-Bahnplanungsprobleme, bei denen sich mehrere homogene Agenten gleichzeitig in einer gemeinsamen Umgebung bewegen. Obwohl die optimale Lösung von MAPF NP-schwer ist, sind skalierbare und effiziente Lösungsverfahren für reale Anwendungen wie Logistik und Suche und Rettung von entscheidender Bedeutung. Aus diesem Grund hat die Forschungsgemeinschaft verschiedene dezentrale suboptimale MAPF-Löser vorgeschlagen, die maschinelles Lernen nutzen. Solche Methoden betrachten MAPF (aus der Perspektive eines einzelnen Agenten) als ein Dec-POMDP, bei dem ein Agent in jedem Zeitschritt basierend auf der lokalen Beobachtung eine Aktion wählen muss, und lösen das Problem typischerweise durch bestärkendes Lernen oder Imitationslernen. Wir folgen demselben Ansatz, führen jedoch zusätzlich ein lernbares Kommunikationsmodul ein, das speziell darauf ausgelegt ist, die Zusammenarbeit zwischen Agenten durch effizienten Merkmalsaustausch zu verbessern. Wir stellen den Local Communication for Multi-agent Pathfinding (LC-MAPF) vor, ein generalisierbares vortrainiertes Modell, das mehrstufige Kommunikation zwischen benachbarten Agenten anwendet, um Informationen auszutauschen und ihre Koordination zu verbessern. Unsere Experimente zeigen, dass die eingeführte Methode die bestehenden lernbasierten MAPF-Löser, einschließlich Ansätzen des Imitationslernens und bestärkenden Lernens, in verschiedenen Metriken in einer Vielzahl (unbekannter) Testszenarien übertrifft. Bemerkenswerterweise beeinträchtigt der eingeführte Kommunikationsmechanismus nicht die Skalierbarkeit von LC-MAPF, ein häufiger Engpass für kommunikationsbasierte MAPF-Löser.

English

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.