ChatPaper.aiChatPaper

대규모 언어 모델을 활용한 다중 에이전트 학습 알고리즘 탐색

Discovering Multiagent Learning Algorithms with Large Language Models

February 18, 2026
저자: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI

초록

불완전 정보 게임에서 다중 에이전트 강화 학습(MARL)의 발전은 역사적으로 기준 모델의 수동적 반복 정제에 의존해 왔습니다. 반사실적 후회 최소화(CFR) 및 정책 공간 응답 오라클(PSRO)과 같은 기초적인 방법론 군이 견고한 이론적 토대 위에 구축되어 있지만, 가장 효과적인 변종들을 설계하는 과정에서는 방대한 알고리즘 설계 공간을 탐색하기 위해 인간의 직관에 의존하는 경우가 많습니다. 본 연구에서는 대규모 언어 모델로 구동되는 진화형 코딩 에이전트인 AlphaEvolve를 활용하여 새로운 다중 에이전트 학습 알고리즘을 자동으로 발견하는 방법을 제안합니다. 우리는 게임 이론적 학습의 두 가지 상이한 패러다임에 대해 새로운 변종들을 진화시킴으로써 이 프레임워크의 일반성을 입증합니다. 첫째, 반복적 후회 최소화 영역에서 후회 누적 및 정책 도출을 제어하는 논리를 진화시켜 새로운 알고리즘인 변동성 적응 할인(VAD-)CFR을 발견했습니다. VAD-CFR은 변동성에 민감한 할인, 일관성 강화 낙관론, 엄격한 웜스타트 정책 누적 스케줄을 포함한 새롭고 직관적이지 않은 메커니즘을 사용하여 할인 예측 CFR+와 같은 최첨단 기준 모델들을 성능적으로 능가합니다. 둘째, 개체군 기반 학습 알고리즘 영역에서 PSRO의 학습 시 및 평가 시 메타 전략 솔버를 진화시켜 새로운 변종인 평활 혼합 낙관적 후회(SHOR-)PSRO를 발견했습니다. SHOR-PSRO는 낙관적 후회 매칭과 최적 순수 전략들에 대한 온도 제어 평활 분포를 선형적으로 혼합하는 하이브리드 메타 솔버를 도입합니다. 학습 동안 이 혼합 인자와 다양성 보너스를 동적으로 어닐링함으로써, 해당 알고리즘은 개체군 다양성에서 엄격한 균형 찾기로의 전환을 자동화하여 표준 정적 메타 솔버들에 비해 우수한 경험적 수렴 성능을 보여줍니다.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
PDF41February 21, 2026