ChatPaper.aiChatPaper

Stratège : Apprentissage des Compétences Stratégiques par les LLMs via la Recherche Arborescente Bi-Niveau

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

August 20, 2024
Auteurs: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI

Résumé

Dans cet article, nous proposons une nouvelle méthode, appelée Stratégiste, qui utilise des LLM pour acquérir de nouvelles compétences dans le cadre de jeux multi-agents grâce à un processus d'auto-amélioration. Notre méthode recueille des retours de qualité grâce à des simulations en auto-jeu avec recherche arborescente Monte Carlo et réflexion basée sur des LLM, qui peuvent ensuite être utilisés pour apprendre des compétences stratégiques de haut niveau telles que l'évaluation des états qui guident l'exécution de bas niveau. Nous montrons comment notre méthode peut être utilisée à la fois dans la planification d'actions et la génération de dialogues dans le contexte des jeux, obtenant de bonnes performances dans les deux tâches. Plus précisément, nous démontrons que notre méthode peut aider à former des agents avec de meilleures performances que les approches traditionnelles basées sur l'apprentissage par renforcement et d'autres approches d'apprentissage de compétences basées sur des LLM dans des jeux tels que le Jeu de Stratégie Pure (GOPS) et The Resistance: Avalon.
English
In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.

Summary

AI-Generated Summary

PDF152November 16, 2024