Orientação Mediada por LLM em Sistemas MARL
LLM-Mediated Guidance of MARL Systems
March 16, 2025
Autores: Philipp D. Siedler, Ian Gemp
cs.AI
Resumo
Em ambientes complexos de múltiplos agentes, alcançar aprendizagem eficiente e comportamentos desejáveis é um desafio significativo para sistemas de Aprendizado por Reforço Multiagente (MARL). Este trabalho explora o potencial de combinar MARL com intervenções mediadas por Modelos de Linguagem de Grande Escala (LLMs) para guiar os agentes em direção a comportamentos mais desejáveis. Especificamente, investigamos como os LLMs podem ser usados para interpretar e facilitar intervenções que moldam as trajetórias de aprendizagem de múltiplos agentes. Experimentamos com dois tipos de intervenções, denominadas controladores: um Controlador de Linguagem Natural (NL) e um Controlador Baseado em Regras (RB). O Controlador NL, que utiliza um LLM para simular intervenções semelhantes às humanas, demonstrou um impacto mais forte do que o Controlador RB. Nossos resultados indicam que os agentes se beneficiam particularmente de intervenções precoces, levando a um treinamento mais eficiente e a um desempenho superior. Ambos os tipos de intervenção superam a linha de base sem intervenções, destacando o potencial da orientação mediada por LLMs para acelerar o treinamento e aprimorar o desempenho do MARL em ambientes desafiadores.
English
In complex multi-agent environments, achieving efficient learning and
desirable behaviours is a significant challenge for Multi-Agent Reinforcement
Learning (MARL) systems. This work explores the potential of combining MARL
with Large Language Model (LLM)-mediated interventions to guide agents toward
more desirable behaviours. Specifically, we investigate how LLMs can be used to
interpret and facilitate interventions that shape the learning trajectories of
multiple agents. We experimented with two types of interventions, referred to
as controllers: a Natural Language (NL) Controller and a Rule-Based (RB)
Controller. The NL Controller, which uses an LLM to simulate human-like
interventions, showed a stronger impact than the RB Controller. Our findings
indicate that agents particularly benefit from early interventions, leading to
more efficient training and higher performance. Both intervention types
outperform the baseline without interventions, highlighting the potential of
LLM-mediated guidance to accelerate training and enhance MARL performance in
challenging environments.Summary
AI-Generated Summary