大規模言語モデルを用いたマルチエージェント学習アルゴリズムの発見
Discovering Multiagent Learning Algorithms with Large Language Models
February 18, 2026
著者: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI
要旨
不完全情報ゲームにおけるマルチエージェント強化学習(MARL)の進展の多くは、従来、ベースライン手法の手動による反復的な改良に依存してきた。反実仮想後悔最小化法(CFR)や政策空間反応オラクル法(PSRO)のような基礎的な手法群は確固たる理論的基盤に立脚しているものの、それらを最も効果的に発展させた変種の設計は、広大なアルゴリズム設計空間を人間の直感に頼って探索する必要があることが多い。本研究では、大規模言語モデルによって駆動される進化的コーディングエージェントであるAlphaEvolveを利用し、新たなマルチエージェント学習アルゴリズムを自動発見する手法を提案する。本フレームワークの汎用性を、ゲーム理論的学習の二つの異なるパラダイムに対して新規変種を進化させることで実証する。第一に、反復的后悔最小化の領域において、後悔の累積と政策導出を制御するロジックを進化させ、新しいアルゴリズムであるVolatility-Adaptive Discounted (VAD-) CFRを発見した。VAD-CFRは、変動性に敏感な割引、一貫性を強制した楽観性、ハードウォームスタート政策累積スケジュールといった、直感的でない新規メカニズムを採用し、Discounted Predictive CFR+のような最先端のベースライン手法を性能で上回る。第二に、集団ベース学習アルゴリズムの領域において、PSROのための学習時および評価時のメタ戦略解法器を進化させ、新たな変種であるSmoothed Hybrid Optimistic Regret (SHOR-) PSROを発見した。SHOR-PSROは、楽観的後悔マッチングと、最適純粋戦略上の平滑化(温度制御)された分布とを線形結合するハイブリッドメタ解法器を導入する。学習中にこの結合係数と多様性ボーナスを動的に焼きなますことで、本アルゴリズムは集団の多様性から厳密な均衡探索への移行を自動化し、標準的な静的なメタ解法器と比較して優れた経験的な収束性を示す。
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.