Aprendendo a se comunicar localmente para busca de caminhos multiagente em grande escala

Resumo

Planejamento de caminhos multiagente (MAPF) é uma abstração amplamente utilizada para problemas de planejamento de trajetórias de múltiplos robôs, onde agentes homogêneos se movem simultaneamente em um ambiente compartilhado. Embora resolver MAPF de forma otimizada seja NP-difícil, solucionadores escaláveis e eficientes são críticos para aplicações reais, como logística e busca e resgate. Para esse fim, a comunidade de pesquisa propôs diversos solucionadores MAPF subótimos descentralizados que utilizam aprendizado de máquina. Tais métodos enquadram MAPF (da perspectiva de um único agente) como um Dec-POMDP, onde a cada passo de tempo um agente deve decidir uma ação com base na observação local e, tipicamente, resolvem o problema por meio de aprendizado por reforço ou aprendizado por imitação. Seguimos a mesma abordagem, mas adicionalmente introduzimos um módulo de comunicação aprendível, projetado para melhorar a cooperação entre agentes por meio do compartilhamento eficiente de características. Apresentamos o Local Communication for Multi-agent Pathfinding (LC-MAPF), um modelo pré-treinado generalizável que aplica comunicação em múltiplas rodadas entre agentes vizinhos para trocar informações e aprimorar sua coordenação. Nossos experimentos mostram que o método introduzido supera os solucionadores MAPF baseados em aprendizado existentes, incluindo abordagens baseadas em IL e RL, em diversas métricas em uma ampla gama de cenários de teste (não vistos). Notavelmente, o mecanismo de comunicação introduzido não compromete a escalabilidade do LC-MAPF, um gargalo comum para solucionadores MAPF baseados em comunicação.

English

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.