Ontdekken van Multiagent Leeralgoritmen met Grote Taalmodellen

Samenvatting

Een groot deel van de vooruitgang in Multi-Agent Reinforcement Learning (MARL) voor spellen met imperfecte informatie is historisch gezien afhankelijk geweest van handmatige, iteratieve verfijning van basislijnen. Hoewel fundamentele families zoals Counterfactual Regret Minimization (CFR) en Policy Space Response Oracles (PSRO) op een solide theoretische basis rusten, berust het ontwerp van hun meest effectieve varianten vaak op menselijke intuïtie om een uitgestrekte algoritmische ontwerpruimte te navigeren. In dit werk stellen we het gebruik voor van AlphaEvolve, een evolutionaire codeeragent aangedreven door grote taalmodellen, om automatisch nieuwe multi-agent leeralgorithmes te ontdekken. We demonstreren de algemene toepasbaarheid van dit framework door nieuwe varianten te evolueren voor twee verschillende paradigma's van speltheoretisch leren. Ten eerste, binnen het domein van iteratieve spijtminimalisatie, evolueren we de logica die de spijtaccumulatie en policy-afleiding bestuurt, en ontdekken we een nieuw algoritme: Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR gebruikt nieuwe, niet-intuïtieve mechanismen – waaronder volatiliteitsgevoelige korting, consistentie-afgedwongen optimisme, en een hard opstartschema voor policy-accumulatie – om state-of-the-art basislijnen zoals Discounted Predictive CFR+ te overtreffen. Ten tweede, binnen het regime van population-based training-algoritmes, evolueren we meta-strategie-oplossers voor trainings- en evaluatietijd voor PSRO, en ontdekken we een nieuwe variant: Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduceert een hybride meta-oplosser die Optimistic Regret Matching lineair combineert met een gladde, temperatuur-gestuurde verdeling over de beste pure strategieën. Door deze mengfactor en diversiteitsbonussen dynamisch te temperen tijdens de training, automatiseert het algoritme de overgang van populatiediversiteit naar rigoureus evenwichtszoeken, wat resulteert in superieure empirische convergentie vergeleken met standaard statische meta-oplossers.

English

Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.

Ontdekken van Multiagent Leeralgoritmen met Grote Taalmodellen

Discovering Multiagent Learning Algorithms with Large Language Models

Samenvatting

Support