Leren lokaal te communiceren voor grootschalig multi-agent padzoeken

Samenvatting

Multi-agent padzoeken (MAPF) is een breed gebruikte abstractie voor multi-robot trajectplanningsproblemen, waarbij meerdere homogene agenten gelijktijdig bewegen in een gedeelde omgeving. Hoewel het optimaal oplossen van MAPF NP-moeilijk is, zijn schaalbare en efficiënte oplossers cruciaal voor praktische toepassingen zoals logistiek en zoek- en reddingsoperaties. Daartoe heeft de onderzoeksgemeenschap diverse gedecentraliseerde suboptimale MAPF-oplossers voorgesteld die gebruikmaken van machinaal leren. Dergelijke methoden framen MAPF (vanuit het perspectief van een enkele agent) als een Dec-POMDP waarbij een agent op elke tijdstap een actie moet kiezen op basis van de lokale observatie en het probleem doorgaans oplossen via bekrachtigingsleren of imitatieleren. Wij volgen dezelfde aanpak maar introduceren daarnaast een leerbare communicatiemodule die specifiek is ontworpen om samenwerking tussen agenten te verbeteren via efficiënte kenmerkuitwisseling. We presenteren Local Communication for Multi-agent Pathfinding (LC-MAPF), een generaliseerbaar voorgetraind model dat communicatie in meerdere rondes tussen naburige agenten toepast om informatie uit te wisselen en hun coördinatie te verbeteren. Onze experimenten tonen aan dat de geïntroduceerde methode de bestaande op leren gebaseerde MAPF-oplossers, waaronder IL- en RL-gebaseerde benaderingen, overtreft in diverse metrieken in een breed scala aan (ongeziene) testscenario's. Opmerkelijk is dat het geïntroduceerde communicatiemechanisme de schaalbaarheid van LC-MAPF niet in gevaar brengt, een veelvoorkomend knelpunt voor op communicatie gebaseerde MAPF-oplossers.

English

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.