Descobrindo Algoritmos de Aprendizado Multiagente com Modelos de Linguagem de Grande Escala
Discovering Multiagent Learning Algorithms with Large Language Models
February 18, 2026
Autores: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI
Resumo
Grande parte do avanço da Aprendizagem por Reforço Multiagente (MARL) em jogos de informação imperfeita historicamente dependeu do refinamento iterativo manual de linhas de base. Embora famílias fundamentais como a Minimização de Arrependimento Contrafactual (CFR) e os Oradores de Resposta no Espaço de Políticas (PSRO) estejam alicerçadas em bases teóricas sólidas, o projeto de suas variantes mais eficazes frequentemente depende da intuição humana para navegar um vasto espaço de design algorítmico. Neste trabalho, propomos o uso do AlphaEvolve, um agente de codificação evolutiva alimentado por modelos de linguagem grandes, para descobrir automaticamente novos algoritmos de aprendizagem multiagente. Demonstramos a generalidade deste framework evoluindo novas variantes para dois paradigmas distintos de aprendizagem teórico-jogos. Primeiro, no domínio da minimização iterativa de arrependimento, evoluímos a lógica que rege o acúmulo de arrependimento e a derivação de políticas, descobrindo um novo algoritmo, CFR com Desconto Adaptativo à Volatilidade (VAD-CFR). O VAD-CFR emprega mecanismos novos e não intuitivos – incluindo desconto sensível à volatilidade, otimismo com imposição de consistência e um cronograma de acumulação de políticas com inicialização forçada – para superar linhas de base state-of-the-art como o Discounted Predictive CFR+. Segundo, no regime de algoritmos de treinamento baseados em população, evoluímos resolvedores de metaestratégia para o PSRO no momento do treinamento e da avaliação, descobrindo uma nova variante, PSRO com Arrependimento Otimista Híbrido Suavizado (SHOR-PSRO). O SHOR-PSRO introduz um meta-resolvedor híbrido que combina linearmente o Correspondência de Arrependimento Otimista com uma distribuição suavizada e controlada por temperatura sobre as melhores estratégias puras. Ao realizar o recozimento dinâmico deste fator de combinação e bônus de diversidade durante o treinamento, o algoritmo automatiza a transição da diversidade da população para a busca rigorosa de equilíbrio, resultando em uma convergência empírica superior em comparação com meta-resolvedores estáticos padrão.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.