ChatPaper.aiChatPaper

Entdeckung von Multiagenten-Lernalgorithmen mit großen Sprachmodellen

Discovering Multiagent Learning Algorithms with Large Language Models

February 18, 2026
papers.authors: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI

papers.abstract

Ein Großteil der Fortschritte im Bereich Multi-Agent Reinforcement Learning (MARL) für Spiele mit unvollständiger Information basierte historisch auf manueller, iterativer Verfeinerung von Baseline-Verfahren. Während grundlegende Familien wie Counterfactual Regret Minimization (CFR) und Policy Space Response Oracles (PSRO) auf soliden theoretischen Grundlagen beruhen, stützt sich das Design ihrer effektivsten Varianten oft auf menschliche Intuition, um einen riesigen algorithmischen Designraum zu navigieren. In dieser Arbeit schlagen wir die Verwendung von AlphaEvolve vor, einem evolutionären Programmieragenten, der durch große Sprachmodelle angetrieben wird, um automatisch neue Multiagenten-Lernalgorithmen zu entdecken. Wir demonstrieren die Allgemeingültigkeit dieses Frameworks, indem wir neuartige Varianten für zwei verschiedene Paradigmen des spieltheoretischen Lernens entwickeln. Erstens, im Bereich der iterativen Bereuen-Minimierung, entwickeln wir die Logik, die die Bereuen-Akkumulation und Politikableitung steuert, und entdecken einen neuen Algorithmus: Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR verwendet neuartige, nicht-intuitive Mechanismen – einschließlich volatilitätssensitiver Diskontierung, konsistenz-erzwungenem Optimismus und einem harten Warm-Start-Politik-Akkumulationsplan – um State-of-the-Art-Baselines wie Discounted Predictive CFR+ zu übertreffen. Zweitens, im Bereich populationsbasierter Trainingsalgorithmen, entwickeln wir Trainingszeit- und Auswertungszeit-Meta-Strategie-Solver für PSRO und entdecken eine neue Variante: Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO führt einen hybriden Meta-Solver ein, der Optimistic Regret Matching linear mit einer geglätteten, temperaturabhängig gesteuerten Verteilung über die besten reinen Strategien kombiniert. Durch dynamisches Tempern dieses Mischfaktors und von Diversitätsboni während des Trainings automatisiert der Algorithmus den Übergang von Populationsdiversität zu rigoroser Gleichgewichtsfindung und erzielt eine überlegene empirische Konvergenz im Vergleich zu standardmäßigen statischen Meta-Solvern.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
PDF41February 21, 2026