Agentes de Cambio: Agentes de LLM Autoevolutivos para la Planificación Estratégica
Agents of Change: Self-Evolving LLM Agents for Strategic Planning
June 5, 2025
Autores: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI
Resumen
Los avances recientes en los LLM han permitido su uso como agentes autónomos en una variedad de tareas, aunque siguen enfrentando dificultades para formular y adherirse a estrategias coherentes a largo plazo. En este artículo, investigamos si los agentes basados en LLM pueden automejorarse cuando se les coloca en entornos que desafían explícitamente sus habilidades de planificación estratégica. Utilizando el juego de mesa Catan, accedido a través del marco de código abierto Catanatron, evaluamos una progresión de agentes basados en LLM, desde un agente simple que juega el juego hasta sistemas capaces de reescribir autónomamente sus propios prompts y el código de su agente jugador. Introducimos una arquitectura multiagente en la que roles especializados (Analizador, Investigador, Programador y Jugador) colaboran para analizar iterativamente el juego, investigar nuevas estrategias y modificar la lógica o el prompt del agente. Al comparar agentes diseñados manualmente con aquellos evolucionados completamente por LLM, evaluamos cuán efectivamente estos sistemas pueden diagnosticar fallos y adaptarse con el tiempo. Nuestros resultados muestran que los agentes autoevolutivos, especialmente cuando están impulsados por modelos como Claude 3.7 y GPT-4o, superan a las líneas base estáticas al adoptar autónomamente sus estrategias, transmitir comportamientos de muestra a los agentes jugadores y demostrar razonamiento adaptativo a lo largo de múltiples iteraciones.
English
Recent advances in LLMs have enabled their use as autonomous agents across a
range of tasks, yet they continue to struggle with formulating and adhering to
coherent long-term strategies. In this paper, we investigate whether LLM agents
can self-improve when placed in environments that explicitly challenge their
strategic planning abilities. Using the board game Settlers of Catan, accessed
through the open-source Catanatron framework, we benchmark a progression of
LLM-based agents, from a simple game-playing agent to systems capable of
autonomously rewriting their own prompts and their player agent's code. We
introduce a multi-agent architecture in which specialized roles (Analyzer,
Researcher, Coder, and Player) collaborate to iteratively analyze gameplay,
research new strategies, and modify the agent's logic or prompt. By comparing
manually crafted agents to those evolved entirely by LLMs, we evaluate how
effectively these systems can diagnose failure and adapt over time. Our results
show that self-evolving agents, particularly when powered by models like Claude
3.7 and GPT-4o, outperform static baselines by autonomously adopting their
strategies, passing along sample behavior to game-playing agents, and
demonstrating adaptive reasoning over multiple iterations.