Strategist: Strategische Vaardigheden Leren door LLM's via Bi-Level Boomzoeken

Samenvatting

In dit artikel stellen we een nieuwe methode voor, genaamd Strategist, die gebruikmaakt van LLM's om nieuwe vaardigheden te verwerven voor het spelen van multi-agent spellen via een zelfverbeteringsproces. Onze methode verzamelt kwalitatieve feedback door middel van zelfspelsimulaties met Monte Carlo-boomzoeken en LLM-gebaseerde reflectie, die vervolgens kan worden gebruikt om hoogwaardige strategische vaardigheden te leren, zoals het evalueren van toestanden die de uitvoering op laag niveau sturen. We laten zien hoe onze methode kan worden toegepast in zowel actieplanning als dialooggeneratie in de context van spellen, waarbij goede prestaties worden behaald voor beide taken. Specifiek demonstreren we dat onze methode kan helpen bij het trainen van agents die beter presteren dan zowel traditionele op reinforcement learning gebaseerde benaderingen als andere LLM-gebaseerde vaardigheidsleerbenaderingen in spellen zoals het Game of Pure Strategy (GOPS) en The Resistance: Avalon.

English

In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.

Strategist: Strategische Vaardigheden Leren door LLM's via Bi-Level Boomzoeken

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Samenvatting

Summary

Support

Support