Agenti del Cambiamento: Agenti LLM Auto-Evolutivi per la Pianificazione Strategica
Agents of Change: Self-Evolving LLM Agents for Strategic Planning
June 5, 2025
Autori: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI
Abstract
I recenti progressi nei LLM (Large Language Models) hanno permesso il loro utilizzo come agenti autonomi in una gamma di attività, ma continuano a incontrare difficoltà nella formulazione e nell'adesione a strategie coerenti a lungo termine. In questo articolo, indaghiamo se gli agenti basati su LLM possano auto-migliorarsi quando inseriti in ambienti che mettono esplicitamente alla prova le loro capacità di pianificazione strategica. Utilizzando il gioco da tavolo "I Coloni di Catan", accessibile tramite il framework open-source Catanatron, valutiamo una progressione di agenti basati su LLM, da un semplice agente che gioca a sistemi in grado di riscrivere autonomamente i propri prompt e il codice dell'agente giocatore. Introduciamo un'architettura multi-agente in cui ruoli specializzati (Analizzatore, Ricercatore, Programmatore e Giocatore) collaborano per analizzare iterativamente il gameplay, ricercare nuove strategie e modificare la logica o il prompt dell'agente. Confrontando agenti creati manualmente con quelli evoluti interamente da LLM, valutiamo quanto efficacemente questi sistemi possano diagnosticare i fallimenti e adattarsi nel tempo. I nostri risultati mostrano che gli agenti auto-evolutivi, specialmente quando alimentati da modelli come Claude 3.7 e GPT-4o, superano i benchmark statici adottando autonomamente le proprie strategie, trasmettendo comportamenti campione agli agenti giocatori e dimostrando un ragionamento adattivo su più iterazioni.
English
Recent advances in LLMs have enabled their use as autonomous agents across a
range of tasks, yet they continue to struggle with formulating and adhering to
coherent long-term strategies. In this paper, we investigate whether LLM agents
can self-improve when placed in environments that explicitly challenge their
strategic planning abilities. Using the board game Settlers of Catan, accessed
through the open-source Catanatron framework, we benchmark a progression of
LLM-based agents, from a simple game-playing agent to systems capable of
autonomously rewriting their own prompts and their player agent's code. We
introduce a multi-agent architecture in which specialized roles (Analyzer,
Researcher, Coder, and Player) collaborate to iteratively analyze gameplay,
research new strategies, and modify the agent's logic or prompt. By comparing
manually crafted agents to those evolved entirely by LLMs, we evaluate how
effectively these systems can diagnose failure and adapt over time. Our results
show that self-evolving agents, particularly when powered by models like Claude
3.7 and GPT-4o, outperform static baselines by autonomously adopting their
strategies, passing along sample behavior to game-playing agents, and
demonstrating adaptive reasoning over multiple iterations.