MOMAland: Um Conjunto de Referências para Aprendizado por Reforço Multi-Objetivo de Múltiplos Agentes

Resumo

Muitas tarefas desafiadoras, como gerenciar sistemas de tráfego, redes elétricas ou cadeias de suprimentos, envolvem processos de tomada de decisão complexos que devem equilibrar múltiplos objetivos conflitantes e coordenar as ações de vários tomadores de decisão independentes (DMs). Uma perspectiva para formalizar e abordar tais tarefas é o aprendizado por reforço multiobjetivo multiagente (MOMARL). O MOMARL amplia o aprendizado por reforço (RL) para problemas com múltiplos agentes, cada um precisando considerar múltiplos objetivos em seu processo de aprendizado. Na pesquisa de aprendizado por reforço, os benchmarks são cruciais para facilitar o progresso, a avaliação e a reprodutibilidade. A importância dos benchmarks é destacada pela existência de inúmeros frameworks de benchmark desenvolvidos para vários paradigmas de RL, incluindo RL de agente único (por exemplo, Gymnasium), RL multiagente (por exemplo, PettingZoo) e RL de agente único multiobjetivo (por exemplo, MO-Gymnasium). Para apoiar o avanço do campo MOMARL, apresentamos o MOMAland, a primeira coleção de ambientes padronizados para aprendizado por reforço multiobjetivo multiagente. O MOMAland aborda a necessidade de benchmarking abrangente neste campo emergente, oferecendo mais de 10 ambientes diversos que variam no número de agentes, representações de estado, estruturas de recompensa e considerações de utilidade. Para fornecer bases sólidas para pesquisas futuras, o MOMAland também inclui algoritmos capazes de aprender políticas nesses cenários.

English

Many challenging tasks such as managing traffic systems, electricity grids, or supply chains involve complex decision-making processes that must balance multiple conflicting objectives and coordinate the actions of various independent decision-makers (DMs). One perspective for formalising and addressing such tasks is multi-objective multi-agent reinforcement learning (MOMARL). MOMARL broadens reinforcement learning (RL) to problems with multiple agents each needing to consider multiple objectives in their learning process. In reinforcement learning research, benchmarks are crucial in facilitating progress, evaluation, and reproducibility. The significance of benchmarks is underscored by the existence of numerous benchmark frameworks developed for various RL paradigms, including single-agent RL (e.g., Gymnasium), multi-agent RL (e.g., PettingZoo), and single-agent multi-objective RL (e.g., MO-Gymnasium). To support the advancement of the MOMARL field, we introduce MOMAland, the first collection of standardised environments for multi-objective multi-agent reinforcement learning. MOMAland addresses the need for comprehensive benchmarking in this emerging field, offering over 10 diverse environments that vary in the number of agents, state representations, reward structures, and utility considerations. To provide strong baselines for future research, MOMAland also includes algorithms capable of learning policies in such settings.

MOMAland: Um Conjunto de Referências para Aprendizado por Reforço Multi-Objetivo de Múltiplos Agentes

MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning

Resumo

Support