ChatPaper.aiChatPaper

Strategist: Apprendimento di Abilità Strategiche da parte di LLM tramite Ricerca ad Albero Bi-Livello

Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

August 20, 2024
Autori: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI

Abstract

In questo articolo, proponiamo un nuovo metodo chiamato Strategist che utilizza i Large Language Models (LLM) per acquisire nuove abilità nel gioco multi-agente attraverso un processo di auto-miglioramento. Il nostro metodo raccoglie feedback di qualità mediante simulazioni di auto-gioco con l'algoritmo Monte Carlo Tree Search e riflessioni basate su LLM, che possono poi essere utilizzate per apprendere abilità strategiche di alto livello, come la valutazione degli stati che guidano l'esecuzione a basso livello. Dimostriamo come il nostro metodo possa essere applicato sia nella pianificazione delle azioni che nella generazione di dialoghi nel contesto dei giochi, ottenendo buone prestazioni in entrambi i compiti. In particolare, mostriamo che il nostro metodo può aiutare ad addestrare agenti con prestazioni migliori rispetto sia agli approcci tradizionali basati sull'apprendimento per rinforzo che ad altri approcci di apprendimento delle abilità basati su LLM, in giochi come il Game of Pure Strategy (GOPS) e The Resistance: Avalon.
English
In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.
PDF152November 16, 2024