Agents du changement : Agents LLM auto-évolutifs pour la planification stratégique
Agents of Change: Self-Evolving LLM Agents for Strategic Planning
June 5, 2025
Auteurs: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI
Résumé
Les récents progrès des LLM (modèles de langage à grande échelle) ont permis leur utilisation en tant qu'agents autonomes pour une variété de tâches, mais ils continuent de rencontrer des difficultés à formuler et à adhérer à des stratégies cohérentes sur le long terme. Dans cet article, nous étudions si les agents basés sur des LLM peuvent s'auto-améliorer lorsqu'ils sont placés dans des environnements qui mettent explicitement à l'épreuve leurs capacités de planification stratégique. En utilisant le jeu de société Les Colons de Catane, accessible via le framework open-source Catanatron, nous évaluons une progression d'agents basés sur des LLM, allant d'un simple agent joueur à des systèmes capables de réécrire de manière autonome leurs propres prompts et le code de leur agent joueur. Nous introduisons une architecture multi-agents dans laquelle des rôles spécialisés (Analyseur, Chercheur, Codeur et Joueur) collaborent pour analyser de manière itérative les parties, rechercher de nouvelles stratégies et modifier la logique ou le prompt de l'agent. En comparant des agents conçus manuellement à ceux évoluant entièrement grâce aux LLM, nous évaluons dans quelle mesure ces systèmes peuvent diagnostiquer les échecs et s'adapter au fil du temps. Nos résultats montrent que les agents auto-évolutifs, en particulier lorsqu'ils sont alimentés par des modèles comme Claude 3.7 et GPT-4o, surpassent les bases de référence statiques en adoptant de manière autonome leurs stratégies, en transmettant des exemples de comportement aux agents joueurs et en démontrant un raisonnement adaptatif sur plusieurs itérations.
English
Recent advances in LLMs have enabled their use as autonomous agents across a
range of tasks, yet they continue to struggle with formulating and adhering to
coherent long-term strategies. In this paper, we investigate whether LLM agents
can self-improve when placed in environments that explicitly challenge their
strategic planning abilities. Using the board game Settlers of Catan, accessed
through the open-source Catanatron framework, we benchmark a progression of
LLM-based agents, from a simple game-playing agent to systems capable of
autonomously rewriting their own prompts and their player agent's code. We
introduce a multi-agent architecture in which specialized roles (Analyzer,
Researcher, Coder, and Player) collaborate to iteratively analyze gameplay,
research new strategies, and modify the agent's logic or prompt. By comparing
manually crafted agents to those evolved entirely by LLMs, we evaluate how
effectively these systems can diagnose failure and adapt over time. Our results
show that self-evolving agents, particularly when powered by models like Claude
3.7 and GPT-4o, outperform static baselines by autonomously adopting their
strategies, passing along sample behavior to game-playing agents, and
demonstrating adaptive reasoning over multiple iterations.