ChatPaper.aiChatPaper

LLM 기반 MARL 시스템 지도

LLM-Mediated Guidance of MARL Systems

March 16, 2025
저자: Philipp D. Siedler, Ian Gemp
cs.AI

초록

복잡한 다중 에이전트 환경에서 효율적인 학습과 바람직한 행동을 달성하는 것은 다중 에이전트 강화 학습(MARL) 시스템에게 중요한 과제입니다. 본 연구는 MARL과 대형 언어 모델(LLM)을 결합하여 에이전트가 더 바람직한 행동을 하도록 유도하는 가능성을 탐구합니다. 특히, 다중 에이전트의 학습 궤적을 형성하는 데 LLM이 어떻게 개입을 해석하고 촉진할 수 있는지 조사합니다. 우리는 두 가지 유형의 개입, 즉 컨트롤러를 실험했습니다: 자연어(NL) 컨트롤러와 규칙 기반(RB) 컨트롤러입니다. 인간과 유사한 개입을 시뮬레이션하기 위해 LLM을 사용하는 NL 컨트롤러는 RB 컨트롤러보다 더 강력한 영향을 보였습니다. 우리의 연구 결과는 에이전트가 특히 초기 개입에서 이점을 얻어 더 효율적인 훈련과 더 높은 성능을 달성한다는 것을 나타냅니다. 두 가지 개입 유형 모두 개입이 없는 기준선을 능가하며, 도전적인 환경에서 LLM을 통한 지도가 훈련을 가속화하고 MARL 성능을 향상시킬 수 있는 잠재력을 강조합니다.
English
In complex multi-agent environments, achieving efficient learning and desirable behaviours is a significant challenge for Multi-Agent Reinforcement Learning (MARL) systems. This work explores the potential of combining MARL with Large Language Model (LLM)-mediated interventions to guide agents toward more desirable behaviours. Specifically, we investigate how LLMs can be used to interpret and facilitate interventions that shape the learning trajectories of multiple agents. We experimented with two types of interventions, referred to as controllers: a Natural Language (NL) Controller and a Rule-Based (RB) Controller. The NL Controller, which uses an LLM to simulate human-like interventions, showed a stronger impact than the RB Controller. Our findings indicate that agents particularly benefit from early interventions, leading to more efficient training and higher performance. Both intervention types outperform the baseline without interventions, highlighting the potential of LLM-mediated guidance to accelerate training and enhance MARL performance in challenging environments.

Summary

AI-Generated Summary

PDF32March 21, 2025