Стратег: Обучение стратегическим навыкам с помощью LLMs через двухуровневый поиск по дереву.
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
August 20, 2024
Авторы: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI
Аннотация
В данной статье мы предлагаем новый метод Strategist, который использует LLM для приобретения новых навыков в играх с несколькими агентами через процесс самосовершенствования. Наш метод собирает качественную обратную связь через симуляции самоигры с поиском по дереву методом Монте-Карло и LLM-основанным отражением, которая затем может быть использована для изучения стратегических навыков высокого уровня, таких как оценка состояний, которая направляет выполнение низкоуровневых действий. Мы демонстрируем, как наш метод может быть использован как в планировании действий, так и в генерации диалогов в контексте игр, достигая хороших результатов в обеих задачах. Конкретно, мы показываем, что наш метод может помочь обучить агентов с лучшей производительностью, чем традиционные подходы на основе обучения с подкреплением и другие подходы к изучению навыков на основе LLM в играх, включая Игру Чистой Стратегии (GOPS) и Сопротивление: Авалон.
English
In this paper, we propose a new method Strategist that utilizes LLMs to
acquire new skills for playing multi-agent games through a self-improvement
process. Our method gathers quality feedback through self-play simulations with
Monte Carlo tree search and LLM-based reflection, which can then be used to
learn high-level strategic skills such as how to evaluate states that guide the
low-level execution.We showcase how our method can be used in both action
planning and dialogue generation in the context of games, achieving good
performance on both tasks. Specifically, we demonstrate that our method can
help train agents with better performance than both traditional reinforcement
learning-based approaches and other LLM-based skill learning approaches in
games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.Summary
AI-Generated Summary