ChatPaper.aiChatPaper

AlphaStar Hors Ligne : Apprentissage par Renforcement à Grande Échelle en Mode Hors Connexion

AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning

August 7, 2023
papers.authors: Michaël Mathieu, Sherjil Ozair, Srivatsan Srinivasan, Caglar Gulcehre, Shangtong Zhang, Ray Jiang, Tom Le Paine, Richard Powell, Konrad Żołna, Julian Schrittwieser, David Choi, Petko Georgiev, Daniel Toyama, Aja Huang, Roman Ring, Igor Babuschkin, Timo Ewalds, Mahyar Bordbar, Sarah Henderson, Sergio Gómez Colmenarejo, Aäron van den Oord, Wojciech Marian Czarnecki, Nando de Freitas, Oriol Vinyals
cs.AI

papers.abstract

StarCraft II est l'un des environnements de simulation les plus exigeants pour l'apprentissage par renforcement ; il est partiellement observable, stochastique, multi-agent, et maîtriser StarCraft II nécessite une planification stratégique sur de longues périodes avec une exécution en temps réel à bas niveau. Il dispose également d'une scène compétitive professionnelle active. StarCraft II est particulièrement adapté pour faire progresser les algorithmes d'apprentissage par renforcement hors ligne, à la fois en raison de sa nature complexe et parce que Blizzard a publié un ensemble de données massif contenant des millions de parties de StarCraft II jouées par des joueurs humains. Cet article exploite cette ressource et établit un benchmark, appelé AlphaStar Unplugged, introduisant des défis sans précédent pour l'apprentissage par renforcement hors ligne. Nous définissons un ensemble de données (un sous-ensemble de la publication de Blizzard), des outils standardisant une API pour les méthodes d'apprentissage automatique, et un protocole d'évaluation. Nous présentons également des agents de référence, incluant le clonage comportemental, des variantes hors ligne de l'acteur-critique et de MuZero. Nous améliorons l'état de l'art des agents utilisant uniquement des données hors ligne, et nous atteignons un taux de victoire de 90 % contre l'agent de clonage comportemental d'AlphaStar précédemment publié.
English
StarCraft II is one of the most challenging simulated reinforcement learning environments; it is partially observable, stochastic, multi-agent, and mastering StarCraft II requires strategic planning over long time horizons with real-time low-level execution. It also has an active professional competitive scene. StarCraft II is uniquely suited for advancing offline RL algorithms, both because of its challenging nature and because Blizzard has released a massive dataset of millions of StarCraft II games played by human players. This paper leverages that and establishes a benchmark, called AlphaStar Unplugged, introducing unprecedented challenges for offline reinforcement learning. We define a dataset (a subset of Blizzard's release), tools standardizing an API for machine learning methods, and an evaluation protocol. We also present baseline agents, including behavior cloning, offline variants of actor-critic and MuZero. We improve the state of the art of agents using only offline data, and we achieve 90% win rate against previously published AlphaStar behavior cloning agent.
PDF270December 15, 2024