Agents van Verandering: Zelf-evoluerende LLM-agents voor Strategische Planning
Agents of Change: Self-Evolving LLM Agents for Strategic Planning
June 5, 2025
Auteurs: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI
Samenvatting
Recente ontwikkelingen in LLM's hebben hun inzet als autonome agenten voor een
reeks taken mogelijk gemaakt, maar ze blijven moeite hebben met het formuleren
en vasthouden van samenhangende langetermijnstrategieën. In dit artikel
onderzoeken we of LLM-agenten zichzelf kunnen verbeteren wanneer ze worden
geplaatst in omgevingen die hun strategische planningsvaardigheden expliciet
uitdagen. Met behulp van het bordspel Kolonisten van Catan, toegankelijk via het
open-source Catanatron-framework, benchmarken we een reeks LLM-gebaseerde
agenten, van een eenvoudige spelagent tot systemen die in staat zijn om
autonoom hun eigen prompts en de code van hun spelagent te herschrijven. We
introduceren een multi-agentarchitectuur waarin gespecialiseerde rollen
(Analist, Onderzoeker, Programmeur en Speler) samenwerken om iteratief gameplay
te analyseren, nieuwe strategieën te onderzoeken en de logica of prompt van de
agent aan te passen. Door handmatig gemaakte agenten te vergelijken met agenten
die volledig door LLM's zijn geëvolueerd, evalueren we hoe effectief deze
systemen falen kunnen diagnosticeren en zich in de loop van de tijd kunnen
aanpassen. Onze resultaten tonen aan dat zelf-evoluerende agenten, vooral
wanneer ze worden aangedreven door modellen zoals Claude 3.7 en GPT-4o,
statische basislijnen overtreffen door autonoom hun strategieën aan te nemen,
voorbeeldgedrag door te geven aan spelagenten en adaptief redeneren te
demonstreren over meerdere iteraties.
English
Recent advances in LLMs have enabled their use as autonomous agents across a
range of tasks, yet they continue to struggle with formulating and adhering to
coherent long-term strategies. In this paper, we investigate whether LLM agents
can self-improve when placed in environments that explicitly challenge their
strategic planning abilities. Using the board game Settlers of Catan, accessed
through the open-source Catanatron framework, we benchmark a progression of
LLM-based agents, from a simple game-playing agent to systems capable of
autonomously rewriting their own prompts and their player agent's code. We
introduce a multi-agent architecture in which specialized roles (Analyzer,
Researcher, Coder, and Player) collaborate to iteratively analyze gameplay,
research new strategies, and modify the agent's logic or prompt. By comparing
manually crafted agents to those evolved entirely by LLMs, we evaluate how
effectively these systems can diagnose failure and adapt over time. Our results
show that self-evolving agents, particularly when powered by models like Claude
3.7 and GPT-4o, outperform static baselines by autonomously adopting their
strategies, passing along sample behavior to game-playing agents, and
demonstrating adaptive reasoning over multiple iterations.