ChatPaper.aiChatPaper

Guida mediata da LLM per sistemi MARL

LLM-Mediated Guidance of MARL Systems

March 16, 2025
Autori: Philipp D. Siedler, Ian Gemp
cs.AI

Abstract

In ambienti multi-agente complessi, raggiungere un apprendimento efficiente e comportamenti desiderabili rappresenta una sfida significativa per i sistemi di Apprendimento per Rinforzo Multi-Agente (MARL). Questo lavoro esplora il potenziale della combinazione del MARL con interventi mediati da Modelli Linguistici di Grande Dimensione (LLM) per guidare gli agenti verso comportamenti più desiderabili. Nello specifico, indaghiamo come gli LLM possano essere utilizzati per interpretare e facilitare interventi che modellano le traiettorie di apprendimento di più agenti. Abbiamo sperimentato due tipi di interventi, denominati controller: un Controller in Linguaggio Naturale (NL) e un Controller Basato su Regole (RB). Il Controller NL, che utilizza un LLM per simulare interventi simili a quelli umani, ha mostrato un impatto maggiore rispetto al Controller RB. I nostri risultati indicano che gli agenti traggono particolare beneficio da interventi precoci, portando a un addestramento più efficiente e a prestazioni superiori. Entrambi i tipi di intervento superano la linea di base senza interventi, evidenziando il potenziale della guizia mediata da LLM per accelerare l'addestramento e migliorare le prestazioni del MARL in ambienti complessi.
English
In complex multi-agent environments, achieving efficient learning and desirable behaviours is a significant challenge for Multi-Agent Reinforcement Learning (MARL) systems. This work explores the potential of combining MARL with Large Language Model (LLM)-mediated interventions to guide agents toward more desirable behaviours. Specifically, we investigate how LLMs can be used to interpret and facilitate interventions that shape the learning trajectories of multiple agents. We experimented with two types of interventions, referred to as controllers: a Natural Language (NL) Controller and a Rule-Based (RB) Controller. The NL Controller, which uses an LLM to simulate human-like interventions, showed a stronger impact than the RB Controller. Our findings indicate that agents particularly benefit from early interventions, leading to more efficient training and higher performance. Both intervention types outperform the baseline without interventions, highlighting the potential of LLM-mediated guidance to accelerate training and enhance MARL performance in challenging environments.
PDF32March 21, 2025