ChatPaper.aiChatPaper

Découverte d'algorithmes d'apprentissage multi-agents avec des modèles de langage volumineux

Discovering Multiagent Learning Algorithms with Large Language Models

February 18, 2026
papers.authors: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI

papers.abstract

Une grande partie des progrès en Apprentissage par Renforcement Multi-Agent (MARL) pour les jeux à information imparfaite a historiquement reposé sur l'affinement itératif manuel de méthodes de référence. Bien que des familles fondamentales comme la Minimisation de Regret Contrefactuel (CFR) et les Oracles de Réponse dans l'Espace des Politiques (PSRO) s'appuient sur des bases théoriques solides, la conception de leurs variantes les plus efficaces repose souvent sur l'intuition humaine pour naviguer dans un vaste espace de conception algorithmique. Dans ce travail, nous proposons d'utiliser AlphaEvolve, un agent de codage évolutif alimenté par des grands modèles de langage, pour découvrir automatiquement de nouveaux algorithmes d'apprentissage multiagent. Nous démontrons la généralité de ce cadre en faisant évoluer de nouvelles variantes pour deux paradigmes distincts d'apprentissage théorique des jeux. Premièrement, dans le domaine de la minimisation itérative du regret, nous faisons évoluer la logique gouvernant l'accumulation du regret et la dérivation de la politique, découvrant un nouvel algorithme, CFR à Actualisation Adaptative à la Volatilité (VAD-CFR). VAD-CFR emploie des mécanismes nouveaux et non intuitifs – incluant une actualisation sensible à la volatilité, un optimisme à cohérence forcée et un calendrier d'accumulation de politiques à démarrage à froid strict – pour surpasser des méthodes de référence de pointe comme Discounted Predictive CFR+. Deuxièmement, dans le régime des algorithmes d'entraînement basés sur une population, nous faisons évoluer des solveurs de méta-stratégie pour PSRO, utilisés pendant l'entraînement et l'évaluation, découvrant une nouvelle variante, PSRO à Regret Optimiste Hybride Lissé (SHOR-PSRO). SHOR-PSRO introduit un méta-solveur hybride qui combine linéairement l'Appariement de Regret Optimiste avec une distribution lissée, contrôlée par une température, sur les meilleures stratégies pures. En annelant dynamiquement ce facteur de mélange et des bonus de diversité pendant l'entraînement, l'algorithme automatise la transition de la diversité de population vers la recherche rigoureuse d'équilibre, produisant une convergence empirique supérieure comparée aux méta-solveurs statiques standards.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
PDF41February 21, 2026