ChatPaper.aiChatPaper

Агенты перемен: Саморазвивающиеся агенты на основе больших языковых моделей для стратегического планирования

Agents of Change: Self-Evolving LLM Agents for Strategic Planning

June 5, 2025
Авторы: Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM) позволили использовать их в качестве автономных агентов для решения широкого круга задач, однако они по-прежнему испытывают трудности с формулированием и соблюдением последовательных долгосрочных стратегий. В данной статье мы исследуем, могут ли LLM-агенты самостоятельно совершенствоваться в средах, которые явно бросают вызов их способностям к стратегическому планированию. Используя настольную игру "Колонизаторы" (Settlers of Catan) через открытый фреймворк Catanatron, мы проводим сравнительный анализ ряда LLM-агентов, начиная с простого игрового агента и заканчивая системами, способными автономно переписывать свои собственные промпты и код игрового агента. Мы представляем многоагентную архитектуру, в которой специализированные роли (Анализатор, Исследователь, Программист и Игрок) взаимодействуют для итеративного анализа игрового процесса, исследования новых стратегий и модификации логики или промпта агента. Сравнивая агентов, созданных вручную, с теми, которые полностью эволюционировали под управлением LLM, мы оцениваем, насколько эффективно эти системы могут диагностировать ошибки и адаптироваться с течением времени. Наши результаты показывают, что саморазвивающиеся агенты, особенно при использовании моделей, таких как Claude 3.7 и GPT-4o, превосходят статические базовые подходы за счет автономного принятия стратегий, передачи примеров поведения игровым агентам и демонстрации адаптивного мышления в ходе множества итераций.
English
Recent advances in LLMs have enabled their use as autonomous agents across a range of tasks, yet they continue to struggle with formulating and adhering to coherent long-term strategies. In this paper, we investigate whether LLM agents can self-improve when placed in environments that explicitly challenge their strategic planning abilities. Using the board game Settlers of Catan, accessed through the open-source Catanatron framework, we benchmark a progression of LLM-based agents, from a simple game-playing agent to systems capable of autonomously rewriting their own prompts and their player agent's code. We introduce a multi-agent architecture in which specialized roles (Analyzer, Researcher, Coder, and Player) collaborate to iteratively analyze gameplay, research new strategies, and modify the agent's logic or prompt. By comparing manually crafted agents to those evolved entirely by LLMs, we evaluate how effectively these systems can diagnose failure and adapt over time. Our results show that self-evolving agents, particularly when powered by models like Claude 3.7 and GPT-4o, outperform static baselines by autonomously adopting their strategies, passing along sample behavior to game-playing agents, and demonstrating adaptive reasoning over multiple iterations.
PDF52June 10, 2025