Strategist: Strategische Vaardigheden Leren door LLM's via Bi-Level Boomzoeken
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
August 20, 2024
Auteurs: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI
Samenvatting
In dit artikel stellen we een nieuwe methode voor, genaamd Strategist, die gebruikmaakt van LLM's om nieuwe vaardigheden te verwerven voor het spelen van multi-agent spellen via een zelfverbeteringsproces. Onze methode verzamelt kwalitatieve feedback door middel van zelfspelsimulaties met Monte Carlo-boomzoeken en LLM-gebaseerde reflectie, die vervolgens kan worden gebruikt om hoogwaardige strategische vaardigheden te leren, zoals het evalueren van toestanden die de uitvoering op laag niveau sturen. We laten zien hoe onze methode kan worden toegepast in zowel actieplanning als dialooggeneratie in de context van spellen, waarbij goede prestaties worden behaald voor beide taken. Specifiek demonstreren we dat onze methode kan helpen bij het trainen van agents die beter presteren dan zowel traditionele op reinforcement learning gebaseerde benaderingen als andere LLM-gebaseerde vaardigheidsleerbenaderingen in spellen zoals het Game of Pure Strategy (GOPS) en The Resistance: Avalon.
English
In this paper, we propose a new method Strategist that utilizes LLMs to
acquire new skills for playing multi-agent games through a self-improvement
process. Our method gathers quality feedback through self-play simulations with
Monte Carlo tree search and LLM-based reflection, which can then be used to
learn high-level strategic skills such as how to evaluate states that guide the
low-level execution.We showcase how our method can be used in both action
planning and dialogue generation in the context of games, achieving good
performance on both tasks. Specifically, we demonstrate that our method can
help train agents with better performance than both traditional reinforcement
learning-based approaches and other LLM-based skill learning approaches in
games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.Summary
AI-Generated Summary