Stratège : Apprentissage des Compétences Stratégiques par les LLMs via la Recherche Arborescente Bi-Niveau
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
August 20, 2024
Auteurs: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI
Résumé
Dans cet article, nous proposons une nouvelle méthode, appelée Stratégiste, qui utilise des LLM pour acquérir de nouvelles compétences dans le cadre de jeux multi-agents grâce à un processus d'auto-amélioration. Notre méthode recueille des retours de qualité grâce à des simulations en auto-jeu avec recherche arborescente Monte Carlo et réflexion basée sur des LLM, qui peuvent ensuite être utilisés pour apprendre des compétences stratégiques de haut niveau telles que l'évaluation des états qui guident l'exécution de bas niveau. Nous montrons comment notre méthode peut être utilisée à la fois dans la planification d'actions et la génération de dialogues dans le contexte des jeux, obtenant de bonnes performances dans les deux tâches. Plus précisément, nous démontrons que notre méthode peut aider à former des agents avec de meilleures performances que les approches traditionnelles basées sur l'apprentissage par renforcement et d'autres approches d'apprentissage de compétences basées sur des LLM dans des jeux tels que le Jeu de Stratégie Pure (GOPS) et The Resistance: Avalon.
English
In this paper, we propose a new method Strategist that utilizes LLMs to
acquire new skills for playing multi-agent games through a self-improvement
process. Our method gathers quality feedback through self-play simulations with
Monte Carlo tree search and LLM-based reflection, which can then be used to
learn high-level strategic skills such as how to evaluate states that guide the
low-level execution.We showcase how our method can be used in both action
planning and dialogue generation in the context of games, achieving good
performance on both tasks. Specifically, we demonstrate that our method can
help train agents with better performance than both traditional reinforcement
learning-based approaches and other LLM-based skill learning approaches in
games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.Summary
AI-Generated Summary