Estratega: Aprendizaje de Habilidades Estratégicas por LLMs a través de Búsqueda en Árbol Bi-Nivel

Resumen

En este documento, proponemos un nuevo método llamado Estratega que utiliza LLMs para adquirir nuevas habilidades para jugar juegos multiagente a través de un proceso de auto-mejora. Nuestro método recopila retroalimentación de calidad a través de simulaciones de auto-juego con búsqueda de árbol Monte Carlo y reflexión basada en LLM, que luego se puede utilizar para aprender habilidades estratégicas de alto nivel, como evaluar estados que guían la ejecución de bajo nivel. Mostramos cómo nuestro método puede ser utilizado tanto en la planificación de acciones como en la generación de diálogos en el contexto de juegos, logrando un buen rendimiento en ambas tareas. Específicamente, demostramos que nuestro método puede ayudar a entrenar agentes con un mejor rendimiento que enfoques tradicionales basados en aprendizaje por refuerzo y otros enfoques de aprendizaje de habilidades basados en LLM en juegos que incluyen el Juego de Estrategia Pura (GOPS) y The Resistance: Avalon.

English

In this paper, we propose a new method Strategist that utilizes LLMs to acquire new skills for playing multi-agent games through a self-improvement process. Our method gathers quality feedback through self-play simulations with Monte Carlo tree search and LLM-based reflection, which can then be used to learn high-level strategic skills such as how to evaluate states that guide the low-level execution.We showcase how our method can be used in both action planning and dialogue generation in the context of games, achieving good performance on both tasks. Specifically, we demonstrate that our method can help train agents with better performance than both traditional reinforcement learning-based approaches and other LLM-based skill learning approaches in games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.