LLMを介したMARLシステムのガイダンス
LLM-Mediated Guidance of MARL Systems
March 16, 2025
著者: Philipp D. Siedler, Ian Gemp
cs.AI
要旨
複雑なマルチエージェント環境において、効率的な学習と望ましい行動を達成することは、マルチエージェント強化学習(MARL)システムにとって重要な課題です。本研究では、MARLと大規模言語モデル(LLM)を介した介入を組み合わせることで、エージェントをより望ましい行動に導く可能性を探ります。具体的には、複数のエージェントの学習軌跡を形成するための介入を解釈し、促進するためにLLMをどのように利用できるかを調査します。我々は、Natural Language(NL)コントローラとRule-Based(RB)コントローラという2種類の介入(コントローラ)を実験しました。LLMを使用して人間のような介入をシミュレートするNLコントローラは、RBコントローラよりも強い影響を示しました。我々の調査結果は、特に早期の介入がエージェントにとって有益であり、より効率的なトレーニングと高いパフォーマンスにつながることを示しています。両方の介入タイプは、介入なしのベースラインを上回り、困難な環境におけるMARLのトレーニングを加速し、パフォーマンスを向上させるためのLLMを介したガイダンスの可能性を強調しています。
English
In complex multi-agent environments, achieving efficient learning and
desirable behaviours is a significant challenge for Multi-Agent Reinforcement
Learning (MARL) systems. This work explores the potential of combining MARL
with Large Language Model (LLM)-mediated interventions to guide agents toward
more desirable behaviours. Specifically, we investigate how LLMs can be used to
interpret and facilitate interventions that shape the learning trajectories of
multiple agents. We experimented with two types of interventions, referred to
as controllers: a Natural Language (NL) Controller and a Rule-Based (RB)
Controller. The NL Controller, which uses an LLM to simulate human-like
interventions, showed a stronger impact than the RB Controller. Our findings
indicate that agents particularly benefit from early interventions, leading to
more efficient training and higher performance. Both intervention types
outperform the baseline without interventions, highlighting the potential of
LLM-mediated guidance to accelerate training and enhance MARL performance in
challenging environments.Summary
AI-Generated Summary