ChatPaper.aiChatPaper

Открытие алгоритмов обучения мультиагентных систем с помощью больших языковых моделей

Discovering Multiagent Learning Algorithms with Large Language Models

February 18, 2026
Авторы: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI

Аннотация

Значительная часть прогресса в области многопользовательского обучения с подкреплением (MARL) в играх с несовершенной информацией исторически зависела от ручного итеративного уточнения базовых методов. Хотя такие фундаментальные семейства алгоритмов, как минимизация контрфактического сожаления (CFR) и оракулы пространства политик (PSRO), имеют прочную теоретическую основу, разработка их наиболее эффективных вариантов часто полагается на человеческую интуицию для навигации в обширном пространстве алгоритмического дизайна. В данной работе мы предлагаем использовать AlphaEvolve, эволюционного агента для программирования на основе больших языковых моделей, для автоматического открытия новых алгоритмов многопользовательского обучения. Мы демонстрируем универсальность этого подхода, эволюционируя новые варианты для двух различных парадигм теоретико-игрового обучения. Во-первых, в области итеративной минимизации сожаления мы эволюционируем логику, управляющую накоплением сожаления и выводом политики, обнаруживая новый алгоритм — CFR с волатильность-адаптивным дисконтированием (VAD-CFR). VAD-CFR использует новые, неинтуитивные механизмы, включая чувствительное к волатильности дисконтирование, оптимизм с обеспечением согласованности и жесткий график накопления политики с "теплым стартом", чтобы превзойти передовые базовые методы, такие как Discounted Predictive CFR+. Во-вторых, в рамках алгоритмов обучения на основе популяций мы эволюционируем мета-стратегии для обучения и оценки для PSRO, обнаруживая новый вариант — PSRO со сглаженным гибридным оптимистичным сожалением (SHOR-PSRO). SHOR-PSRO вводит гибридный мета-решатель, который линейно объединяет Оптимистичное согласование по сожалению со сглаженным, контролируемым температурой распределением по наилучшим чистым стратегиям. Динамически уменьшая этот коэффициент смешивания и бонусы за разнообразие в процессе обучения, алгоритм автоматизирует переход от разнообразия популяции к строгому поиску равновесия, демонстрируя превосходную эмпирическую сходимость по сравнению со стандартными статическими мета-решателями.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
PDF41February 21, 2026