Descubrimiento de Algoritmos de Aprendizaje Multiagente con Modelos de Lenguaje a Gran Escala
Discovering Multiagent Learning Algorithms with Large Language Models
February 18, 2026
Autores: Zun Li, John Schultz, Daniel Hennes, Marc Lanctot
cs.AI
Resumen
Gran parte del avance del Aprendizaje por Refuerzo Multiagente (MARL) en juegos de información imperfecta ha dependido históricamente del refinamiento iterativo manual de líneas base. Si bien familias fundacionales como la Minimización de Arrepentimiento Contrafactual (CFR) y los Oráculos de Respuesta en el Espacio de Políticas (PSRO) se asientan sobre bases teóricas sólidas, el diseño de sus variantes más efectivas a menudo depende de la intuición humana para navegar un vasto espacio de diseño algorítmico. En este trabajo, proponemos el uso de AlphaEvolve, un agente de codificación evolutiva impulsado por modelos de lenguaje grandes, para descubrir automáticamente nuevos algoritmos de aprendizaje multiagente. Demostramos la generalidad de este marco evolucionando variantes novedosas para dos paradigmas distintos de aprendizaje teórico de juegos. Primero, en el dominio de la minimización iterativa de arrepentimiento, evolucionamos la lógica que gobierna la acumulación de arrepentimiento y la derivación de políticas, descubriendo un nuevo algoritmo: CFR con Descuento Adaptativo a la Volatilidad (VAD-CFR). VAD-CFR emplea mecanismos nuevos y no intuitivos —que incluyen un descuento sensible a la volatilidad, un optimismo forzado a la consistencia y un programa de acumulación de políticas de inicio en caliente estricto— para superar a líneas base de última generación como Discounted Predictive CFR+. En segundo lugar, en el régimen de algoritmos de entrenamiento basados en población, evolucionamos solucionadores de metaestrategias en tiempo de entrenamiento y evaluación para PSRO, descubriendo una nueva variante: PSRO con Arrepentimiento Optimista Híbrido Suavizado (SHOR-PSRO). SHOR-PSRO introduce un meta-solucionador híbrido que combina linealmente la Emparejamiento de Arrepentimiento Optimista con una distribución suavizada y controlada por temperatura sobre las mejores estrategias puras. Al reducir progresivamente este factor de mezcla y las bonificaciones de diversidad durante el entrenamiento, el algoritmo automatiza la transición desde la diversidad de la población hacia una búsqueda rigurosa del equilibrio, logrando una convergencia empírica superior en comparación con los meta-solucionadores estáticos estándar.
English
Much of the advancement of Multi-Agent Reinforcement Learning (MARL) in imperfect-information games has historically depended on manual iterative refinement of baselines. While foundational families like Counterfactual Regret Minimization (CFR) and Policy Space Response Oracles (PSRO) rest on solid theoretical ground, the design of their most effective variants often relies on human intuition to navigate a vast algorithmic design space. In this work, we propose the use of AlphaEvolve, an evolutionary coding agent powered by large language models, to automatically discover new multiagent learning algorithms. We demonstrate the generality of this framework by evolving novel variants for two distinct paradigms of game-theoretic learning. First, in the domain of iterative regret minimization, we evolve the logic governing regret accumulation and policy derivation, discovering a new algorithm, Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR employs novel, non-intuitive mechanisms-including volatility-sensitive discounting, consistency-enforced optimism, and a hard warm-start policy accumulation schedule-to outperform state-of-the-art baselines like Discounted Predictive CFR+. Second, in the regime of population based training algorithms, we evolve training-time and evaluation-time meta strategy solvers for PSRO, discovering a new variant, Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO introduces a hybrid meta-solver that linearly blends Optimistic Regret Matching with a smoothed, temperature-controlled distribution over best pure strategies. By dynamically annealing this blending factor and diversity bonuses during training, the algorithm automates the transition from population diversity to rigorous equilibrium finding, yielding superior empirical convergence compared to standard static meta-solvers.