Управление MARL-системами с использованием LLM-посредников
LLM-Mediated Guidance of MARL Systems
March 16, 2025
Авторы: Philipp D. Siedler, Ian Gemp
cs.AI
Аннотация
В сложных многопользовательских средах достижение эффективного обучения и желаемого поведения представляет собой значительную проблему для систем многопользовательского обучения с подкреплением (Multi-Agent Reinforcement Learning, MARL). В данной работе исследуется потенциал сочетания MARL с вмешательствами, опосредованными крупными языковыми моделями (Large Language Models, LLM), для направления агентов к более желаемому поведению. В частности, мы изучаем, как LLM могут быть использованы для интерпретации и облегчения вмешательств, которые формируют траектории обучения множества агентов. Мы провели эксперименты с двумя типами вмешательств, называемых контроллерами: контроллер на основе естественного языка (Natural Language, NL) и контроллер на основе правил (Rule-Based, RB). NL-контроллер, который использует LLM для имитации человекообразных вмешательств, показал более сильное влияние по сравнению с RB-контроллером. Наши результаты указывают на то, что агенты особенно выигрывают от ранних вмешательств, что приводит к более эффективному обучению и повышению производительности. Оба типа вмешательств превосходят базовый уровень без вмешательств, подчеркивая потенциал опосредованного LLM руководства для ускорения обучения и повышения производительности MARL в сложных средах.
English
In complex multi-agent environments, achieving efficient learning and
desirable behaviours is a significant challenge for Multi-Agent Reinforcement
Learning (MARL) systems. This work explores the potential of combining MARL
with Large Language Model (LLM)-mediated interventions to guide agents toward
more desirable behaviours. Specifically, we investigate how LLMs can be used to
interpret and facilitate interventions that shape the learning trajectories of
multiple agents. We experimented with two types of interventions, referred to
as controllers: a Natural Language (NL) Controller and a Rule-Based (RB)
Controller. The NL Controller, which uses an LLM to simulate human-like
interventions, showed a stronger impact than the RB Controller. Our findings
indicate that agents particularly benefit from early interventions, leading to
more efficient training and higher performance. Both intervention types
outperform the baseline without interventions, highlighting the potential of
LLM-mediated guidance to accelerate training and enhance MARL performance in
challenging environments.Summary
AI-Generated Summary