Estratega: Aprendizaje de Habilidades Estratégicas por LLMs a través de Búsqueda en Árbol Bi-Nivel
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search
August 20, 2024
Autores: Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
cs.AI
Resumen
En este documento, proponemos un nuevo método llamado Estratega que utiliza LLMs para adquirir nuevas habilidades para jugar juegos multiagente a través de un proceso de auto-mejora. Nuestro método recopila retroalimentación de calidad a través de simulaciones de auto-juego con búsqueda de árbol Monte Carlo y reflexión basada en LLM, que luego se puede utilizar para aprender habilidades estratégicas de alto nivel, como evaluar estados que guían la ejecución de bajo nivel. Mostramos cómo nuestro método puede ser utilizado tanto en la planificación de acciones como en la generación de diálogos en el contexto de juegos, logrando un buen rendimiento en ambas tareas. Específicamente, demostramos que nuestro método puede ayudar a entrenar agentes con un mejor rendimiento que enfoques tradicionales basados en aprendizaje por refuerzo y otros enfoques de aprendizaje de habilidades basados en LLM en juegos que incluyen el Juego de Estrategia Pura (GOPS) y The Resistance: Avalon.
English
In this paper, we propose a new method Strategist that utilizes LLMs to
acquire new skills for playing multi-agent games through a self-improvement
process. Our method gathers quality feedback through self-play simulations with
Monte Carlo tree search and LLM-based reflection, which can then be used to
learn high-level strategic skills such as how to evaluate states that guide the
low-level execution.We showcase how our method can be used in both action
planning and dialogue generation in the context of games, achieving good
performance on both tasks. Specifically, we demonstrate that our method can
help train agents with better performance than both traditional reinforcement
learning-based approaches and other LLM-based skill learning approaches in
games including the Game of Pure Strategy (GOPS) and The Resistance: Avalon.Summary
AI-Generated Summary