ChatPaper.aiChatPaper

LLM-vermittelte Steuerung von MARL-Systemen

LLM-Mediated Guidance of MARL Systems

March 16, 2025
Autoren: Philipp D. Siedler, Ian Gemp
cs.AI

Zusammenfassung

In komplexen Multi-Agenten-Umgebungen stellt das Erreichen effizienten Lernens und wünschenswerter Verhaltensweisen eine erhebliche Herausforderung für Multi-Agent Reinforcement Learning (MARL)-Systeme dar. Diese Arbeit untersucht das Potenzial der Kombination von MARL mit Interventionen, die durch Large Language Models (LLMs) vermittelt werden, um Agenten zu besseren Verhaltensweisen zu führen. Insbesondere erforschen wir, wie LLMs genutzt werden können, um Interventionen zu interpretieren und zu erleichtern, die die Lernpfade mehrerer Agenten beeinflussen. Wir experimentierten mit zwei Arten von Interventionen, die als Controller bezeichnet werden: einem Natural Language (NL)-Controller und einem Rule-Based (RB)-Controller. Der NL-Controller, der ein LLM zur Simulation menschlicher Interventionen verwendet, zeigte eine stärkere Wirkung als der RB-Controller. Unsere Ergebnisse deuten darauf hin, dass Agenten insbesondere von frühen Interventionen profitieren, was zu effizienterem Training und höherer Leistung führt. Beide Interventionstypen übertreffen die Baseline ohne Interventionen, was das Potenzial von LLM-vermittelter Anleitung zur Beschleunigung des Trainings und zur Steigerung der MARL-Leistung in anspruchsvollen Umgebungen unterstreicht.
English
In complex multi-agent environments, achieving efficient learning and desirable behaviours is a significant challenge for Multi-Agent Reinforcement Learning (MARL) systems. This work explores the potential of combining MARL with Large Language Model (LLM)-mediated interventions to guide agents toward more desirable behaviours. Specifically, we investigate how LLMs can be used to interpret and facilitate interventions that shape the learning trajectories of multiple agents. We experimented with two types of interventions, referred to as controllers: a Natural Language (NL) Controller and a Rule-Based (RB) Controller. The NL Controller, which uses an LLM to simulate human-like interventions, showed a stronger impact than the RB Controller. Our findings indicate that agents particularly benefit from early interventions, leading to more efficient training and higher performance. Both intervention types outperform the baseline without interventions, highlighting the potential of LLM-mediated guidance to accelerate training and enhance MARL performance in challenging environments.

Summary

AI-Generated Summary

PDF32March 21, 2025