ChatPaper.aiChatPaper

Guidance médiée par LLM des systèmes MARL

LLM-Mediated Guidance of MARL Systems

March 16, 2025
Auteurs: Philipp D. Siedler, Ian Gemp
cs.AI

Résumé

Dans les environnements multi-agents complexes, parvenir à un apprentissage efficace et à des comportements souhaitables constitue un défi majeur pour les systèmes d'apprentissage par renforcement multi-agent (MARL). Ce travail explore le potentiel de la combinaison du MARL avec des interventions médiées par des modèles de langage de grande taille (LLM) pour guider les agents vers des comportements plus désirables. Plus précisément, nous étudions comment les LLM peuvent être utilisés pour interpréter et faciliter des interventions qui façonnent les trajectoires d'apprentissage de plusieurs agents. Nous avons expérimenté avec deux types d'interventions, appelées contrôleurs : un Contrôleur en Langage Naturel (NL) et un Contrôleur Basé sur des Règles (RB). Le Contrôleur NL, qui utilise un LLM pour simuler des interventions de type humain, a montré un impact plus fort que le Contrôleur RB. Nos résultats indiquent que les agents bénéficient particulièrement d'interventions précoces, conduisant à un entraînement plus efficace et à de meilleures performances. Les deux types d'intervention surpassent le scénario de référence sans interventions, soulignant le potentiel de la guidance médiée par LLM pour accélérer l'entraînement et améliorer les performances du MARL dans des environnements complexes.
English
In complex multi-agent environments, achieving efficient learning and desirable behaviours is a significant challenge for Multi-Agent Reinforcement Learning (MARL) systems. This work explores the potential of combining MARL with Large Language Model (LLM)-mediated interventions to guide agents toward more desirable behaviours. Specifically, we investigate how LLMs can be used to interpret and facilitate interventions that shape the learning trajectories of multiple agents. We experimented with two types of interventions, referred to as controllers: a Natural Language (NL) Controller and a Rule-Based (RB) Controller. The NL Controller, which uses an LLM to simulate human-like interventions, showed a stronger impact than the RB Controller. Our findings indicate that agents particularly benefit from early interventions, leading to more efficient training and higher performance. Both intervention types outperform the baseline without interventions, highlighting the potential of LLM-mediated guidance to accelerate training and enhance MARL performance in challenging environments.

Summary

AI-Generated Summary

PDF32March 21, 2025