Strategist: Apprendimento di Abilità Strategiche da parte di LLM tramite Ricerca ad Albero Bi-Livello
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
August 20, 2024
Autori: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI
Abstract
In questo articolo, proponiamo un nuovo metodo chiamato Strategist che utilizza i Large Language Models (LLM) per acquisire nuove abilità nel gioco multi-agente attraverso un processo di auto-miglioramento. Il nostro metodo raccoglie feedback di qualità mediante simulazioni di auto-gioco con l'algoritmo Monte Carlo Tree Search e riflessioni basate su LLM, che possono poi essere utilizzate per apprendere abilità strategiche di alto livello, come la valutazione degli stati che guidano l'esecuzione a basso livello. Dimostriamo come il nostro metodo possa essere applicato sia nella pianificazione delle azioni che nella generazione di dialoghi nel contesto dei giochi, ottenendo buone prestazioni in entrambi i compiti. In particolare, mostriamo che il nostro metodo può aiutare ad addestrare agenti con prestazioni migliori rispetto sia agli approcci tradizionali basati sull'apprendimento per rinforzo che ad altri approcci di apprendimento delle abilità basati su LLM, in giochi come il Game of Pure Strategy (GOPS) e The Resistance: Avalon.
English
In this paper, we propose a new method Strategist that utilizes LLMs to
acquire new skills for playing multi-agent games through a self-improvement
process. Our method gathers quality feedback through self-play simulations with
Monte Carlo tree search and LLM-based reflection, which can then be used to
learn high-level strategic skills such as how to evaluate states that guide the
low-level execution.We showcase how our method can be used in both action
planning and dialogue generation in the context of games, achieving good
performance on both tasks. Specifically, we demonstrate that our method can
help train agents with better performance than both traditional reinforcement
learning-based approaches and other LLM-based skill learning approaches in
games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.