Agentes de Mudança: Agentes de LLM Auto-Evolutivos para Planejamento Estratégico

Resumo

Avanços recentes em LLMs (Large Language Models) permitiram seu uso como agentes autônomos em uma variedade de tarefas, mas eles ainda enfrentam dificuldades para formular e aderir a estratégias de longo prazo coerentes. Neste artigo, investigamos se agentes baseados em LLMs podem se autoaperfeiçoar quando colocados em ambientes que desafiam explicitamente suas habilidades de planejamento estratégico. Utilizando o jogo de tabuleiro Settlers of Catan, acessado por meio da estrutura de código aberto Catanatron, avaliamos uma progressão de agentes baseados em LLMs, desde um agente simples que joga o jogo até sistemas capazes de reescrever autonomamente seus próprios prompts e o código do agente jogador. Introduzimos uma arquitetura multiagente na quais papéis especializados (Analisador, Pesquisador, Programador e Jogador) colaboram para analisar iterativamente o jogo, pesquisar novas estratégias e modificar a lógica ou o prompt do agente. Ao comparar agentes criados manualmente com aqueles evoluídos inteiramente por LLMs, avaliamos quão efetivamente esses sistemas podem diagnosticar falhas e se adaptar ao longo do tempo. Nossos resultados mostram que agentes auto-evolutivos, especialmente quando impulsionados por modelos como Claude 3.7 e GPT-4o, superam baselines estáticos ao adotar autonomamente suas estratégias, repassar comportamentos exemplares para agentes jogadores e demonstrar raciocínio adaptativo ao longo de múltiplas iterações.

English

Recent advances in LLMs have enabled their use as autonomous agents across a range of tasks, yet they continue to struggle with formulating and adhering to coherent long-term strategies. In this paper, we investigate whether LLM agents can self-improve when placed in environments that explicitly challenge their strategic planning abilities. Using the board game Settlers of Catan, accessed through the open-source Catanatron framework, we benchmark a progression of LLM-based agents, from a simple game-playing agent to systems capable of autonomously rewriting their own prompts and their player agent's code. We introduce a multi-agent architecture in which specialized roles (Analyzer, Researcher, Coder, and Player) collaborate to iteratively analyze gameplay, research new strategies, and modify the agent's logic or prompt. By comparing manually crafted agents to those evolved entirely by LLMs, we evaluate how effectively these systems can diagnose failure and adapt over time. Our results show that self-evolving agents, particularly when powered by models like Claude 3.7 and GPT-4o, outperform static baselines by autonomously adopting their strategies, passing along sample behavior to game-playing agents, and demonstrating adaptive reasoning over multiple iterations.

Agentes de Mudança: Agentes de LLM Auto-Evolutivos para Planejamento Estratégico

Agents of Change: Self-Evolving LLM Agents for Strategic Planning

Resumo

Support