코드-공간 응답 오라클: 대규모 언어 모델을 활용한 해석 가능한 다중 에이전트 정책 생성
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
March 10, 2026
저자: Daniel Hennes, Zun Li, John Schultz, Marc Lanctot
cs.AI
초록
최근 다중 에이전트 강화학습, 특히 정책 공간 응답 오라클(PSRO)의 발전으로 점점 더 복잡한 영역에서 근사적 게임 이론적 균형을 계산할 수 있게 되었습니다. 그러나 이러한 방법들은 '블랙박스' 신경망 정책을 생성하는 심층 강화학습 오라클에 의존하여 해석, 신뢰 또는 디버깅이 어렵다는 한계가 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 강화학습 오라클을 대형 언어 모델(LLM)로 대체하는 새로운 프레임워크인 코드 공간 응답 오라클(CSRO)을 소개합니다. CSRO는 최적 응답 계산을 코드 생성 작업으로 재구성하여 LLM이 정책을 직접 인간이 읽을 수 있는 코드로 생성하도록 유도합니다. 이 접근법은 본질적으로 해석 가능한 정책을 산출할 뿐만 아니라, LLM의 사전 학습된 지식을 활용하여 복잡하고 인간과 유사한 전략을 발견합니다. 우리는 LLM 기반 오라클을 구축하고 향상시키는 여러 방법(제로샷 프롬프팅, 반복적 정제, 분산형 LLM 기반 진화 시스템인 AlphaEvolve)을 탐구합니다. CSRO가 다양한 설명 가능한 정책 집합을 생성하면서 기준 모델과 경쟁력 있는 성능을 달성함을 입증합니다. 본 연구는 불투명한 정책 매개변수 최적화에서 해석 가능한 알고리즘 행동 합성으로 초점을 전환하는 다중 에이전트 학습에 대한 새로운 관점을 제시합니다.
English
Recent advances in multi-agent reinforcement learning, particularly Policy-Space Response Oracles (PSRO), have enabled the computation of approximate game-theoretic equilibria in increasingly complex domains. However, these methods rely on deep reinforcement learning oracles that produce `black-box' neural network policies, making them difficult to interpret, trust or debug. We introduce Code-Space Response Oracles (CSRO), a novel framework that addresses this challenge by replacing RL oracles with Large Language Models (LLMs). CSRO reframes the best response computation as a code generation task, prompting an LLM to generate policies directly as human-readable code. This approach not only yields inherently interpretable policies but also leverages the LLM's pretrained knowledge to discover complex, human-like strategies. We explore multiple ways to construct and enhance an LLM-based oracle: zero-shot prompting, iterative refinement and AlphaEvolve, a distributed LLM-based evolutionary system. We demonstrate that CSRO achieves performance competitive with baselines while producing a diverse set of explainable policies. Our work presents a new perspective on multi-agent learning, shifting the focus from optimizing opaque policy parameters to synthesizing interpretable algorithmic behavior.