LLM-vermittelte Steuerung von MARL-Systemen
LLM-Mediated Guidance of MARL Systems
March 16, 2025
Autoren: Philipp D. Siedler, Ian Gemp
cs.AI
Zusammenfassung
In komplexen Multi-Agenten-Umgebungen stellt das Erreichen effizienten Lernens und wünschenswerter Verhaltensweisen eine erhebliche Herausforderung für Multi-Agent Reinforcement Learning (MARL)-Systeme dar. Diese Arbeit untersucht das Potenzial der Kombination von MARL mit Interventionen, die durch Large Language Models (LLMs) vermittelt werden, um Agenten zu besseren Verhaltensweisen zu führen. Insbesondere erforschen wir, wie LLMs genutzt werden können, um Interventionen zu interpretieren und zu erleichtern, die die Lernpfade mehrerer Agenten beeinflussen. Wir experimentierten mit zwei Arten von Interventionen, die als Controller bezeichnet werden: einem Natural Language (NL)-Controller und einem Rule-Based (RB)-Controller. Der NL-Controller, der ein LLM zur Simulation menschlicher Interventionen verwendet, zeigte eine stärkere Wirkung als der RB-Controller. Unsere Ergebnisse deuten darauf hin, dass Agenten insbesondere von frühen Interventionen profitieren, was zu effizienterem Training und höherer Leistung führt. Beide Interventionstypen übertreffen die Baseline ohne Interventionen, was das Potenzial von LLM-vermittelter Anleitung zur Beschleunigung des Trainings und zur Steigerung der MARL-Leistung in anspruchsvollen Umgebungen unterstreicht.
English
In complex multi-agent environments, achieving efficient learning and
desirable behaviours is a significant challenge for Multi-Agent Reinforcement
Learning (MARL) systems. This work explores the potential of combining MARL
with Large Language Model (LLM)-mediated interventions to guide agents toward
more desirable behaviours. Specifically, we investigate how LLMs can be used to
interpret and facilitate interventions that shape the learning trajectories of
multiple agents. We experimented with two types of interventions, referred to
as controllers: a Natural Language (NL) Controller and a Rule-Based (RB)
Controller. The NL Controller, which uses an LLM to simulate human-like
interventions, showed a stronger impact than the RB Controller. Our findings
indicate that agents particularly benefit from early interventions, leading to
more efficient training and higher performance. Both intervention types
outperform the baseline without interventions, highlighting the potential of
LLM-mediated guidance to accelerate training and enhance MARL performance in
challenging environments.Summary
AI-Generated Summary