ChatPaper.aiChatPaper

LLM-gemedieerde begeleiding van MARL-systemen

LLM-Mediated Guidance of MARL Systems

March 16, 2025
Auteurs: Philipp D. Siedler, Ian Gemp
cs.AI

Samenvatting

In complexe multi-agent omgevingen is het bereiken van efficiënt leren en gewenst gedrag een aanzienlijke uitdaging voor Multi-Agent Reinforcement Learning (MARL) systemen. Dit onderzoek verkent het potentieel van het combineren van MARL met interventies die worden bemiddeld door Large Language Models (LLM's) om agenten naar gewenst gedrag te sturen. Specifiek onderzoeken we hoe LLM's kunnen worden gebruikt om interventies te interpreteren en te faciliteren die de leerprocessen van meerdere agenten vormgeven. We hebben geëxperimenteerd met twee soorten interventies, aangeduid als controllers: een Natural Language (NL) Controller en een Rule-Based (RB) Controller. De NL Controller, die een LLM gebruikt om mensachtige interventies te simuleren, toonde een sterker effect dan de RB Controller. Onze bevindingen geven aan dat agenten vooral baat hebben bij vroege interventies, wat leidt tot efficiëntere training en hogere prestaties. Beide interventietypen presteren beter dan de baseline zonder interventies, wat het potentieel van LLM-gemedieerde begeleiding benadrukt om training te versnellen en MARL-prestaties in uitdagende omgevingen te verbeteren.
English
In complex multi-agent environments, achieving efficient learning and desirable behaviours is a significant challenge for Multi-Agent Reinforcement Learning (MARL) systems. This work explores the potential of combining MARL with Large Language Model (LLM)-mediated interventions to guide agents toward more desirable behaviours. Specifically, we investigate how LLMs can be used to interpret and facilitate interventions that shape the learning trajectories of multiple agents. We experimented with two types of interventions, referred to as controllers: a Natural Language (NL) Controller and a Rule-Based (RB) Controller. The NL Controller, which uses an LLM to simulate human-like interventions, showed a stronger impact than the RB Controller. Our findings indicate that agents particularly benefit from early interventions, leading to more efficient training and higher performance. Both intervention types outperform the baseline without interventions, highlighting the potential of LLM-mediated guidance to accelerate training and enhance MARL performance in challenging environments.

Summary

AI-Generated Summary

PDF32March 21, 2025