POGEMA: Uma Plataforma de Referência para Navegação Cooperativa de Múltiplos Agentes
POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation
July 20, 2024
Autores: Alexey Skrynnik, Anton Andreychuk, Anatolii Borzilov, Alexander Chernyavskiy, Konstantin Yakovlev, Aleksandr Panov
cs.AI
Resumo
A aprendizagem por reforço multi-agente (MARL) tem se destacado recentemente na resolução de desafiantes problemas cooperativos e competitivos com múltiplos agentes em diversos ambientes, na maioria das vezes com poucos agentes e observabilidade total. Além disso, uma variedade de tarefas cruciais relacionadas à robótica, como navegação e desvio de obstáculos com múltiplos robôs, que tradicionalmente eram abordadas com métodos clássicos não-aprendíveis (por exemplo, busca heurística), atualmente são sugeridas para serem resolvidas por métodos baseados em aprendizado ou híbridos. Ainda assim, neste domínio, é difícil, para não dizer impossível, realizar uma comparação justa entre abordagens clássicas, baseadas em aprendizado e híbridas devido à falta de um framework unificado que suporte tanto o aprendizado quanto a avaliação. Para isso, apresentamos o POGEMA, um conjunto abrangente de ferramentas que inclui um ambiente rápido para aprendizado, um gerador de instâncias de problemas, uma coleção de instâncias pré-definidas, um conjunto de ferramentas de visualização e uma ferramenta de benchmarking que permite avaliação automatizada. Introduzimos e especificamos um protocolo de avaliação definindo uma variedade de métricas relacionadas ao domínio, calculadas com base nos indicadores de avaliação primários (como taxa de sucesso e comprimento do caminho), permitindo uma comparação justa e abrangente. Os resultados de tal comparação, que envolve uma variedade de métodos MARL, baseados em busca e híbridos de ponta, são apresentados.
English
Multi-agent reinforcement learning (MARL) has recently excelled in solving
challenging cooperative and competitive multi-agent problems in various
environments with, mostly, few agents and full observability. Moreover, a range
of crucial robotics-related tasks, such as multi-robot navigation and obstacle
avoidance, that have been conventionally approached with the classical
non-learnable methods (e.g., heuristic search) is currently suggested to be
solved by the learning-based or hybrid methods. Still, in this domain, it is
hard, not to say impossible, to conduct a fair comparison between classical,
learning-based, and hybrid approaches due to the lack of a unified framework
that supports both learning and evaluation. To this end, we introduce POGEMA, a
set of comprehensive tools that includes a fast environment for learning, a
generator of problem instances, the collection of pre-defined ones, a
visualization toolkit, and a benchmarking tool that allows automated
evaluation. We introduce and specify an evaluation protocol defining a range of
domain-related metrics computed on the basics of the primary evaluation
indicators (such as success rate and path length), allowing a fair multi-fold
comparison. The results of such a comparison, which involves a variety of
state-of-the-art MARL, search-based, and hybrid methods, are presented.