Oracoli di Risposta nello Spazio del Codice: Generazione di Politiche Multi-Agente Interpretabili con Modelli Linguistici di Grande Dimensione
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
March 10, 2026
Autori: Daniel Hennes, Zun Li, John Schultz, Marc Lanctot
cs.AI
Abstract
I recenti progressi nell'apprendimento per rinforzo multi-agente, in particolare i Policy-Space Response Oracles (PSRO), hanno reso possibile il calcolo di equilibri approssimati di teoria dei giochi in domini sempre più complessi. Tuttavia, questi metodi si basano su oracoli di apprendimento per rinforzo profondo che producono politiche di rete neurale di tipo 'black-box', rendendoli difficili da interpretare, fidarsi o eseguire il debug. Introduciamo i Code-Space Response Oracles (CSRO), un nuovo framework che affronta questa sfida sostituendo gli oracoli RL con Large Language Model (LLM). CSRO riformula il calcolo della miglior risposta come un'attività di generazione di codice, sollecitando un LLM a generare politiche direttamente come codice leggibile dall'uomo. Questo approccio non solo produce politiche intrinsecamente interpretabili, ma sfrutta anche la conoscenza pre-addestrata dell'LLM per scoprire strategie complesse e simili a quelle umane. Esploriamo molteplici modi per costruire e potenziare un oracolo basato su LLM: prompting zero-shot, raffinamento iterativo e AlphaEvolve, un sistema evolutivo distribuito basato su LLM. Dimostriamo che CSRO raggiunge prestazioni competitive con i baseline producendo allo stesso tempo un insieme diversificato di politiche spiegabili. Il nostro lavoro presenta una nuova prospettiva sull'apprendimento multi-agente, spostando l'attenzione dall'ottimizzazione di parametri di politica opachi alla sintesi di comportamenti algoritmici interpretabili.
English
Recent advances in multi-agent reinforcement learning, particularly Policy-Space Response Oracles (PSRO), have enabled the computation of approximate game-theoretic equilibria in increasingly complex domains. However, these methods rely on deep reinforcement learning oracles that produce `black-box' neural network policies, making them difficult to interpret, trust or debug. We introduce Code-Space Response Oracles (CSRO), a novel framework that addresses this challenge by replacing RL oracles with Large Language Models (LLMs). CSRO reframes the best response computation as a code generation task, prompting an LLM to generate policies directly as human-readable code. This approach not only yields inherently interpretable policies but also leverages the LLM's pretrained knowledge to discover complex, human-like strategies. We explore multiple ways to construct and enhance an LLM-based oracle: zero-shot prompting, iterative refinement and AlphaEvolve, a distributed LLM-based evolutionary system. We demonstrate that CSRO achieves performance competitive with baselines while producing a diverse set of explainable policies. Our work presents a new perspective on multi-agent learning, shifting the focus from optimizing opaque policy parameters to synthesizing interpretable algorithmic behavior.