Code-Space Response Oracles: Interpretierbare Multi-Agenten-Politiken mit Large Language Models generieren

Zusammenfassung

Jüngste Fortschritte im Multi-Agenten-Reinforcement-Learning, insbesondere Policy-Space Response Oracles (PSRO), haben die Berechnung approximativer spieltheoretischer Gleichgewichte in zunehmend komplexen Domänen ermöglicht. Diese Methoden beruhen jedoch auf Deep-Reinforcement-Learning-Orakeln, die `Blackbox'-Neuronale-Netzwerk-Policies erzeugen, was ihre Interpretation, Vertrauenswürdigkeit und Fehlersuche erschwert. Wir stellen Code-Space Response Oracles (CSRO) vor, ein neuartiges Framework, das diese Herausforderung adressiert, indem es RL-Orakel durch Large Language Models (LLMs) ersetzt. CSRO formuliert die Best-Response-Berechnung als Code-Generierungsaufgabe um und veranlasst ein LLM, Policies direkt als menschenlesbaren Code zu generieren. Dieser Ansatz liefert nicht nur inhärent interpretierbare Policies, sondern nutzt auch das vortrainierte Wissen des LLM, um komplexe, menschenähnliche Strategien zu entdecken. Wir untersuchen mehrere Möglichkeiten, ein LLM-basiertes Orakel zu konstruieren und zu verbessern: Zero-Shot-Prompting, iterative Verfeinerung und AlphaEvolve, ein verteiltes, LLM-basiertes evolutionäres System. Wir demonstrieren, dass CSRO eine mit Baseline-Methoden vergleichbare Leistung erzielt und gleichzeitig eine vielfältige Menge an erklärbaren Policies produziert. Unsere Arbeit bietet eine neue Perspektive auf Multi-Agenten-Lernen, indem sie den Fokus von der Optimierung undurchsichtiger Policy-Parameter auf die Synthese interpretierbaren algorithmischen Verhaltens verlagert.

English

Recent advances in multi-agent reinforcement learning, particularly Policy-Space Response Oracles (PSRO), have enabled the computation of approximate game-theoretic equilibria in increasingly complex domains. However, these methods rely on deep reinforcement learning oracles that produce `black-box' neural network policies, making them difficult to interpret, trust or debug. We introduce Code-Space Response Oracles (CSRO), a novel framework that addresses this challenge by replacing RL oracles with Large Language Models (LLMs). CSRO reframes the best response computation as a code generation task, prompting an LLM to generate policies directly as human-readable code. This approach not only yields inherently interpretable policies but also leverages the LLM's pretrained knowledge to discover complex, human-like strategies. We explore multiple ways to construct and enhance an LLM-based oracle: zero-shot prompting, iterative refinement and AlphaEvolve, a distributed LLM-based evolutionary system. We demonstrate that CSRO achieves performance competitive with baselines while producing a diverse set of explainable policies. Our work presents a new perspective on multi-agent learning, shifting the focus from optimizing opaque policy parameters to synthesizing interpretable algorithmic behavior.

Code-Space Response Oracles: Interpretierbare Multi-Agenten-Politiken mit Large Language Models generieren

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Zusammenfassung

Support