Agenten des Wandels: Selbstentwickelnde LLM-Agenten für strategische Planung
Agents of Change: Self-Evolving LLM Agents for Strategic Planning
June 5, 2025
Autoren: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben ihren Einsatz als autonome Agenten in einer Vielzahl von Aufgaben ermöglicht, doch sie haben weiterhin Schwierigkeiten, kohärente langfristige Strategien zu formulieren und einzuhalten. In diesem Artikel untersuchen wir, ob LLM-Agenten sich selbst verbessern können, wenn sie in Umgebungen platziert werden, die ihre strategischen Planungsfähigkeiten explizit herausfordern. Mithilfe des Brettspiels Die Siedler von Catan, das über das Open-Source-Framework Catanatron zugänglich ist, benchmarken wir eine Reihe von LLM-basierten Agenten, von einem einfachen spielenden Agenten bis hin zu Systemen, die in der Lage sind, ihre eigenen Prompts und den Code ihres Spieler-Agenten autonom zu überarbeiten. Wir stellen eine Multi-Agenten-Architektur vor, in der spezialisierte Rollen (Analyzer, Researcher, Coder und Player) zusammenarbeiten, um Spielverläufe iterativ zu analysieren, neue Strategien zu erforschen und die Logik oder den Prompt des Agenten zu modifizieren. Durch den Vergleich von manuell erstellten Agenten mit solchen, die vollständig von LLMs entwickelt wurden, bewerten wir, wie effektiv diese Systeme Fehler diagnostizieren und sich im Laufe der Zeit anpassen können. Unsere Ergebnisse zeigen, dass sich selbst weiterentwickelnde Agenten, insbesondere wenn sie von Modellen wie Claude 3.7 und GPT-4o unterstützt werden, statische Baselines übertreffen, indem sie ihre Strategien autonom anpassen, beispielhaftes Verhalten an spielende Agenten weitergeben und adaptives Denken über mehrere Iterationen hinweg demonstrieren.
English
Recent advances in LLMs have enabled their use as autonomous agents across a
range of tasks, yet they continue to struggle with formulating and adhering to
coherent long-term strategies. In this paper, we investigate whether LLM agents
can self-improve when placed in environments that explicitly challenge their
strategic planning abilities. Using the board game Settlers of Catan, accessed
through the open-source Catanatron framework, we benchmark a progression of
LLM-based agents, from a simple game-playing agent to systems capable of
autonomously rewriting their own prompts and their player agent's code. We
introduce a multi-agent architecture in which specialized roles (Analyzer,
Researcher, Coder, and Player) collaborate to iteratively analyze gameplay,
research new strategies, and modify the agent's logic or prompt. By comparing
manually crafted agents to those evolved entirely by LLMs, we evaluate how
effectively these systems can diagnose failure and adapt over time. Our results
show that self-evolving agents, particularly when powered by models like Claude
3.7 and GPT-4o, outperform static baselines by autonomously adopting their
strategies, passing along sample behavior to game-playing agents, and
demonstrating adaptive reasoning over multiple iterations.