POGEMA: 협력적 다중 에이전트 네비게이션을 위한 벤치마크 플랫폼
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation
July 20, 2024
저자: Alexey Skrynnik, Anton Andreychuk, Anatolii Borzilov, Alexander Chernyavskiy, Konstantin Yakovlev, Aleksandr Panov
cs.AI
초록
다중 에이전트 강화 학습(MARL)은 최근 다양한 환경에서 주로 소수의 에이전트와 완전한 관측 가능성을 가진 협력적 및 경쟁적 다중 에이전트 문제를 해결하는 데 뛰어난 성과를 보여주고 있습니다. 또한, 다중 로봇 탐색 및 장애물 회피와 같은 로봇 공학 관련 핵심 작업들은 전통적으로 비학습적 방법(예: 휴리스틱 탐색)으로 접근되었으나, 현재는 학습 기반 또는 하이브리드 방법으로 해결하는 것이 제안되고 있습니다. 그러나 이 분야에서는 학습과 평가를 모두 지원하는 통합 프레임워크의 부재로 인해 전통적 방법, 학습 기반 방법, 그리고 하이브리드 방법 간의 공정한 비교를 수행하는 것이 어렵거나 거의 불가능합니다. 이를 위해 우리는 POGEMA를 소개합니다. POGEMA는 학습을 위한 빠른 환경, 문제 인스턴스 생성기, 사전 정의된 문제 컬렉션, 시각화 도구, 그리고 자동화된 평가를 가능하게 하는 벤치마킹 도구를 포함한 포괄적인 도구 세트입니다. 우리는 주요 평가 지표(예: 성공률 및 경로 길이)를 기반으로 계산되는 다양한 도메인 관련 메트릭을 정의하는 평가 프로토콜을 소개하고 명시하여 공정한 다각적 비교를 가능하게 합니다. 이러한 비교의 결과는 최신의 다양한 MARL, 탐색 기반, 그리고 하이브리드 방법을 포함하여 제시됩니다.
English
Multi-agent reinforcement learning (MARL) has recently excelled in solving
challenging cooperative and competitive multi-agent problems in various
environments with, mostly, few agents and full observability. Moreover, a range
of crucial robotics-related tasks, such as multi-robot navigation and obstacle
avoidance, that have been conventionally approached with the classical
non-learnable methods (e.g., heuristic search) is currently suggested to be
solved by the learning-based or hybrid methods. Still, in this domain, it is
hard, not to say impossible, to conduct a fair comparison between classical,
learning-based, and hybrid approaches due to the lack of a unified framework
that supports both learning and evaluation. To this end, we introduce POGEMA, a
set of comprehensive tools that includes a fast environment for learning, a
generator of problem instances, the collection of pre-defined ones, a
visualization toolkit, and a benchmarking tool that allows automated
evaluation. We introduce and specify an evaluation protocol defining a range of
domain-related metrics computed on the basics of the primary evaluation
indicators (such as success rate and path length), allowing a fair multi-fold
comparison. The results of such a comparison, which involves a variety of
state-of-the-art MARL, search-based, and hybrid methods, are presented.Summary
AI-Generated Summary