Обучение локальной коммуникации для крупномасштабного многоагентного поиска пути

Аннотация

Поиск пути для нескольких агентов (Multi-agent pathfinding, MAPF) представляет собой широко используемую абстракцию для задач планирования траекторий нескольких роботов, в которой множество однородных агентов движутся одновременно в общей среде. Хотя оптимальное решение MAPF является NP-трудной задачей, масштабируемые и эффективные решатели критически важны для практических приложений, таких как логистика и поисково-спасательные операции. Для этого научное сообщество предложило различные децентрализованные неоптимальные решатели MAPF, использующие машинное обучение. Такие методы рассматривают MAPF (с точки зрения отдельного агента) как децентрализованный частично наблюдаемый марковский процесс принятия решений (Dec-POMDP), где на каждом временном шаге агент должен выбрать действие на основе локального наблюдения, и обычно решают задачу с помощью обучения с подкреплением или имитационного обучения. Мы следуем тому же подходу, но дополнительно вводим обучаемый модуль связи, предназначенный для улучшения кооперации между агентами за счет эффективного обмена признаками. Мы представляем Local Communication for Multi-agent Pathfinding (LC-MAPF) — обобщаемую предварительно обученную модель, которая использует многораундовую связь между соседними агентами для обмена информацией и улучшения их координации. Наши эксперименты показывают, что предложенный метод превосходит существующие обучаемые решатели MAPF, включая подходы на основе имитационного обучения и обучения с подкреплением, по различным метрикам в широком спектре (неизвестных) тестовых сценариев. Примечательно, что введенный механизм связи не ухудшает масштабируемость LC-MAPF, что является распространенным узким местом для решателей MAPF, основанных на связи.

English

Multi-agent pathfinding (MAPF) is a widely used abstraction for multi-robot trajectory planning problems, where multiple homogeneous agents move simultaneously within a shared environment. Although solving MAPF optimally is NP-hard, scalable and efficient solvers are critical for real-world applications such as logistics and search-and-rescue. To this end, the research community has proposed various decentralized suboptimal MAPF solvers that leverage machine learning. Such methods frame MAPF (from a single agent perspective) as a Dec-POMDP where at each time step an agent has to decide an action based on the local observation and typically solve the problem via reinforcement learning or imitation learning. We follow the same approach but additionally introduce a learnable communication module tailored to enhance cooperation between agents via efficient feature sharing. We present the Local Communication for Multi-agent Pathfinding (LC-MAPF), a generalizable pre-trained model that applies multi-round communication between neighboring agents to exchange information and improve their coordination. Our experiments show that the introduced method outperforms the existing learning-based MAPF solvers, including IL and RL-based approaches, across diverse metrics in a diverse range of (unseen) test scenarios. Remarkably, the introduced communication mechanism does not compromise LC-MAPF's scalability, a common bottleneck for communication-based MAPF solvers.