Стратег: Обучение стратегическим навыкам с помощью LLMs через двухуровневый поиск по дереву.

Аннотация

В данной статье мы предлагаем новый метод Strategist, который использует LLM для приобретения новых навыков в играх с несколькими агентами через процесс самосовершенствования. Наш метод собирает качественную обратную связь через симуляции самоигры с поиском по дереву методом Монте-Карло и LLM-основанным отражением, которая затем может быть использована для изучения стратегических навыков высокого уровня, таких как оценка состояний, которая направляет выполнение низкоуровневых действий. Мы демонстрируем, как наш метод может быть использован как в планировании действий, так и в генерации диалогов в контексте игр, достигая хороших результатов в обеих задачах. Конкретно, мы показываем, что наш метод может помочь обучить агентов с лучшей производительностью, чем традиционные подходы на основе обучения с подкреплением и другие подходы к изучению навыков на основе LLM в играх, включая Игру Чистой Стратегии (GOPS) и Сопротивление: Авалон.

English

In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.

Стратег: Обучение стратегическим навыкам с помощью LLMs через двухуровневый поиск по дереву.

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Аннотация

Support