ChatPaper.aiChatPaper

변화의 주체자: 전략적 계획을 위한 자기 진화형 LLM 에이전트

Agents of Change: Self-Evolving LLM Agents for Strategic Planning

June 5, 2025
저자: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI

초록

최근 대형 언어 모델(LLM)의 발전으로 다양한 작업에서 자율 에이전트로 활용할 수 있게 되었지만, 여전히 일관된 장기 전략을 수립하고 이를 준수하는 데 어려움을 겪고 있습니다. 본 논문에서는 전략적 계획 능력을 명시적으로 도전하는 환경에 LLM 에이전트를 배치했을 때 자기 개선이 가능한지 조사합니다. 오픈소스 Catanatron 프레임워크를 통해 접근 가능한 보드 게임 '캐탄의 정착자들(Settlers of Catan)'을 사용하여, 단순한 게임 플레이 에이전트부터 자체 프롬프트와 플레이어 에이전트의 코드를 자율적으로 재작성할 수 있는 시스템에 이르기까지 LLM 기반 에이전트의 발전을 벤치마크합니다. 특화된 역할(Analyzer, Researcher, Coder, Player)이 협력하여 게임 플레이를 반복적으로 분석하고 새로운 전략을 연구하며 에이전트의 로직이나 프롬프트를 수정하는 다중 에이전트 아키텍처를 소개합니다. 수동으로 제작된 에이전트와 LLM에 의해 완전히 진화된 에이전트를 비교함으로써, 이러한 시스템이 실패를 진단하고 시간에 따라 적응하는 데 얼마나 효과적인지 평가합니다. 우리의 결과는 Claude 3.7 및 GPT-4o와 같은 모델로 구동되는 자기 진화 에이전트가 정적 베이스라인을 능가하며, 전략을 자율적으로 채택하고 게임 플레이 에이전트에 샘플 행동을 전달하며 여러 반복에 걸쳐 적응적 추론을 보여준다는 것을 입증합니다.
English
Recent advances in LLMs have enabled their use as autonomous agents across a range of tasks, yet they continue to struggle with formulating and adhering to coherent long-term strategies. In this paper, we investigate whether LLM agents can self-improve when placed in environments that explicitly challenge their strategic planning abilities. Using the board game Settlers of Catan, accessed through the open-source Catanatron framework, we benchmark a progression of LLM-based agents, from a simple game-playing agent to systems capable of autonomously rewriting their own prompts and their player agent's code. We introduce a multi-agent architecture in which specialized roles (Analyzer, Researcher, Coder, and Player) collaborate to iteratively analyze gameplay, research new strategies, and modify the agent's logic or prompt. By comparing manually crafted agents to those evolved entirely by LLMs, we evaluate how effectively these systems can diagnose failure and adapt over time. Our results show that self-evolving agents, particularly when powered by models like Claude 3.7 and GPT-4o, outperform static baselines by autonomously adopting their strategies, passing along sample behavior to game-playing agents, and demonstrating adaptive reasoning over multiple iterations.
PDF52June 10, 2025