Agentes de Mudança: Agentes de LLM Auto-Evolutivos para Planejamento Estratégico
Agents of Change: Self-Evolving LLM Agents for Strategic Planning
June 5, 2025
Autores: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI
Resumo
Avanços recentes em LLMs (Large Language Models) permitiram seu uso como agentes autônomos em uma variedade de tarefas, mas eles ainda enfrentam dificuldades para formular e aderir a estratégias de longo prazo coerentes. Neste artigo, investigamos se agentes baseados em LLMs podem se autoaperfeiçoar quando colocados em ambientes que desafiam explicitamente suas habilidades de planejamento estratégico. Utilizando o jogo de tabuleiro Settlers of Catan, acessado por meio da estrutura de código aberto Catanatron, avaliamos uma progressão de agentes baseados em LLMs, desde um agente simples que joga o jogo até sistemas capazes de reescrever autonomamente seus próprios prompts e o código do agente jogador. Introduzimos uma arquitetura multiagente na quais papéis especializados (Analisador, Pesquisador, Programador e Jogador) colaboram para analisar iterativamente o jogo, pesquisar novas estratégias e modificar a lógica ou o prompt do agente. Ao comparar agentes criados manualmente com aqueles evoluídos inteiramente por LLMs, avaliamos quão efetivamente esses sistemas podem diagnosticar falhas e se adaptar ao longo do tempo. Nossos resultados mostram que agentes auto-evolutivos, especialmente quando impulsionados por modelos como Claude 3.7 e GPT-4o, superam baselines estáticos ao adotar autonomamente suas estratégias, repassar comportamentos exemplares para agentes jogadores e demonstrar raciocínio adaptativo ao longo de múltiplas iterações.
English
Recent advances in LLMs have enabled their use as autonomous agents across a
range of tasks, yet they continue to struggle with formulating and adhering to
coherent long-term strategies. In this paper, we investigate whether LLM agents
can self-improve when placed in environments that explicitly challenge their
strategic planning abilities. Using the board game Settlers of Catan, accessed
through the open-source Catanatron framework, we benchmark a progression of
LLM-based agents, from a simple game-playing agent to systems capable of
autonomously rewriting their own prompts and their player agent's code. We
introduce a multi-agent architecture in which specialized roles (Analyzer,
Researcher, Coder, and Player) collaborate to iteratively analyze gameplay,
research new strategies, and modify the agent's logic or prompt. By comparing
manually crafted agents to those evolved entirely by LLMs, we evaluate how
effectively these systems can diagnose failure and adapt over time. Our results
show that self-evolving agents, particularly when powered by models like Claude
3.7 and GPT-4o, outperform static baselines by autonomously adopting their
strategies, passing along sample behavior to game-playing agents, and
demonstrating adaptive reasoning over multiple iterations.