Управление MARL-системами с использованием LLM-посредников

Аннотация

В сложных многопользовательских средах достижение эффективного обучения и желаемого поведения представляет собой значительную проблему для систем многопользовательского обучения с подкреплением (Multi-Agent Reinforcement Learning, MARL). В данной работе исследуется потенциал сочетания MARL с вмешательствами, опосредованными крупными языковыми моделями (Large Language Models, LLM), для направления агентов к более желаемому поведению. В частности, мы изучаем, как LLM могут быть использованы для интерпретации и облегчения вмешательств, которые формируют траектории обучения множества агентов. Мы провели эксперименты с двумя типами вмешательств, называемых контроллерами: контроллер на основе естественного языка (Natural Language, NL) и контроллер на основе правил (Rule-Based, RB). NL-контроллер, который использует LLM для имитации человекообразных вмешательств, показал более сильное влияние по сравнению с RB-контроллером. Наши результаты указывают на то, что агенты особенно выигрывают от ранних вмешательств, что приводит к более эффективному обучению и повышению производительности. Оба типа вмешательств превосходят базовый уровень без вмешательств, подчеркивая потенциал опосредованного LLM руководства для ускорения обучения и повышения производительности MARL в сложных средах.

English

In complex multi-agent environments, achieving efficient learning and desirable behaviours is a significant challenge for Multi-Agent Reinforcement Learning (MARL) systems. This work explores the potential of combining MARL with Large Language Model (LLM)-mediated interventions to guide agents toward more desirable behaviours. Specifically, we investigate how LLMs can be used to interpret and facilitate interventions that shape the learning trajectories of multiple agents. We experimented with two types of interventions, referred to as controllers: a Natural Language (NL) Controller and a Rule-Based (RB) Controller. The NL Controller, which uses an LLM to simulate human-like interventions, showed a stronger impact than the RB Controller. Our findings indicate that agents particularly benefit from early interventions, leading to more efficient training and higher performance. Both intervention types outperform the baseline without interventions, highlighting the potential of LLM-mediated guidance to accelerate training and enhance MARL performance in challenging environments.

Управление MARL-системами с использованием LLM-посредников

LLM-Mediated Guidance of MARL Systems

Аннотация

Support