ChatPaper.aiChatPaper

AlphaStar Desconectado: Aprendizaje por Refuerzo Offline a Gran Escala

AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning

August 7, 2023
Autores: Michaël Mathieu, Sherjil Ozair, Srivatsan Srinivasan, Caglar Gulcehre, Shangtong Zhang, Ray Jiang, Tom Le Paine, Richard Powell, Konrad Żołna, Julian Schrittwieser, David Choi, Petko Georgiev, Daniel Toyama, Aja Huang, Roman Ring, Igor Babuschkin, Timo Ewalds, Mahyar Bordbar, Sarah Henderson, Sergio Gómez Colmenarejo, Aäron van den Oord, Wojciech Marian Czarnecki, Nando de Freitas, Oriol Vinyals
cs.AI

Resumen

StarCraft II es uno de los entornos de aprendizaje por refuerzo simulado más desafiantes; es parcialmente observable, estocástico, multiagente, y dominar StarCraft II requiere planificación estratégica a largo plazo con ejecución en tiempo real a bajo nivel. Además, cuenta con una escena competitiva profesional activa. StarCraft II es especialmente adecuado para avanzar en algoritmos de aprendizaje por refuerzo offline, tanto por su naturaleza desafiante como porque Blizzard ha publicado un conjunto masivo de datos que incluye millones de partidas de StarCraft II jugadas por humanos. Este artículo aprovecha esto y establece un punto de referencia, llamado AlphaStar Unplugged, introduciendo desafíos sin precedentes para el aprendizaje por refuerzo offline. Definimos un conjunto de datos (un subconjunto del lanzamiento de Blizzard), herramientas que estandarizan una API para métodos de aprendizaje automático y un protocolo de evaluación. También presentamos agentes de referencia, incluyendo clonación de comportamiento, variantes offline de actor-crítico y MuZero. Mejoramos el estado del arte de los agentes que utilizan únicamente datos offline, y logramos una tasa de victorias del 90% frente al agente de clonación de comportamiento de AlphaStar previamente publicado.
English
StarCraft II is one of the most challenging simulated reinforcement learning environments; it is partially observable, stochastic, multi-agent, and mastering StarCraft II requires strategic planning over long time horizons with real-time low-level execution. It also has an active professional competitive scene. StarCraft II is uniquely suited for advancing offline RL algorithms, both because of its challenging nature and because Blizzard has released a massive dataset of millions of StarCraft II games played by human players. This paper leverages that and establishes a benchmark, called AlphaStar Unplugged, introducing unprecedented challenges for offline reinforcement learning. We define a dataset (a subset of Blizzard's release), tools standardizing an API for machine learning methods, and an evaluation protocol. We also present baseline agents, including behavior cloning, offline variants of actor-critic and MuZero. We improve the state of the art of agents using only offline data, and we achieve 90% win rate against previously published AlphaStar behavior cloning agent.
PDF270December 15, 2024