ChatPaper.aiChatPaper

Scoprire Algoritmi di Apprendimento Multiagente con Modelli Linguistici di Grande Dimensione

Discovering Multiagent Learning Algorithms with Large Language Models

February 18, 2026
Autori: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI

Abstract

Gran parte del progresso nell'apprendimento per rinforzo multiagente (MARL) nei giochi a informazione imperfetta è storicamente dipeso dall'affinamento manuale e iterativo dei baseline. Sebbene famiglie fondamentali come la Minimizzazione del Rimpianto Controfattuale (CFR) e gli Oracoli di Risposta nello Spazio delle Politiche (PSRO) poggino su solide basi teoriche, la progettazione delle loro varianti più efficaci spesso si affida all'intuizione umana per navigare un vasto spazio di progettazione algoritmica. In questo lavoro, proponiamo l'uso di AlphaEvolve, un agente di codifica evolutivo alimentato da grandi modelli linguistici, per scoprire automaticamente nuovi algoritmi di apprendimento multiagente. Dimostriamo la generalità di questo framework evolvendo nuove varianti per due paradigmi distinti di apprendimento teoria-dei-giochi. In primo luogo, nel dominio della minimizzazione iterativa del rimpianto, evolviamo la logica che governa l'accumulo del rimpianto e la derivazione della politica, scoprendo un nuovo algoritmo, CFR con Sconto Adattivo alla Volatilità (VAD-CFR). VAD-CFR impiega meccanismi nuovi e non intuitivi - inclusi uno sconto sensibile alla volatilità, un ottimismo a consistenza forzata e una pianificazione di accumulo della politica con hard warm-start - per superare baseline all'avanguardia come Discounted Predictive CFR+. In secondo luogo, nel regime degli algoritmi di addestramento basati su popolazione, evolviamo i risolutori di meta-strategia per il tempo di addestramento e il tempo di valutazione per PSRO, scoprendo una nuova variante, PSRO con Rimpianto Ottimistico Ibrido Levigato (SHOR-PSRO). SHOR-PSRO introduce un meta-risolutore ibrido che combina linearmente l'Abbinamento del Rimpianto Ottimistico con una distribuzione levigata e controllata da temperatura sulle migliori strategie pure. Dinamizzando questo fattore di blending e i bonus di diversità durante l'addestramento, l'algoritmo automatizza la transizione dalla diversità della popolazione alla rigorosa ricerca dell'equilibrio, producendo una convergenza empirica superiore rispetto ai meta-risolutori statici standard.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.
PDF41February 21, 2026