ChatPaper.aiChatPaper

AlphaStar 언플러그드: 대규모 오프라인 강화 학습

AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning

August 7, 2023
저자: Michaël Mathieu, Sherjil Ozair, Srivatsan Srinivasan, Caglar Gulcehre, Shangtong Zhang, Ray Jiang, Tom Le Paine, Richard Powell, Konrad Żołna, Julian Schrittwieser, David Choi, Petko Georgiev, Daniel Toyama, Aja Huang, Roman Ring, Igor Babuschkin, Timo Ewalds, Mahyar Bordbar, Sarah Henderson, Sergio Gómez Colmenarejo, Aäron van den Oord, Wojciech Marian Czarnecki, Nando de Freitas, Oriol Vinyals
cs.AI

초록

스타크래프트 II는 가장 도전적인 시뮬레이션 강화 학습 환경 중 하나로, 부분 관찰 가능하며 확률적이고 다중 에이전트 시스템을 특징으로 합니다. 스타크래프트 II를 숙달하기 위해서는 장기적인 전략적 계획과 실시간의 세부 실행이 요구됩니다. 또한, 이 게임은 활발한 프로 경쟁 장면을 가지고 있습니다. 스타크래프트 II는 오프라인 강화 학습 알고리즘을 발전시키기에 특히 적합한데, 이는 그 도전적인 특성뿐만 아니라 블리자드가 인간 플레이어들이 플레이한 수백만 건의 스타크래프트 II 게임 데이터셋을 공개했기 때문입니다. 본 논문은 이를 활용하여 AlphaStar Unplugged라는 벤치마크를 설립하고, 오프라인 강화 학습에 있어 전례 없는 도전 과제를 소개합니다. 우리는 데이터셋(블리자드 공개 자료의 일부), 머신 러닝 방법을 위한 API를 표준화한 도구, 그리고 평가 프로토콜을 정의합니다. 또한, 행동 복제, 액터-크리틱 및 MuZero의 오프라인 변형을 포함한 베이스라인 에이전트를 제시합니다. 우리는 오프라인 데이터만을 사용하여 에이전트의 최신 기술을 개선하고, 이전에 발표된 AlphaStar 행동 복제 에이전트에 대해 90%의 승률을 달성합니다.
English
StarCraft II is one of the most challenging simulated reinforcement learning environments; it is partially observable, stochastic, multi-agent, and mastering StarCraft II requires strategic planning over long time horizons with real-time low-level execution. It also has an active professional competitive scene. StarCraft II is uniquely suited for advancing offline RL algorithms, both because of its challenging nature and because Blizzard has released a massive dataset of millions of StarCraft II games played by human players. This paper leverages that and establishes a benchmark, called AlphaStar Unplugged, introducing unprecedented challenges for offline reinforcement learning. We define a dataset (a subset of Blizzard's release), tools standardizing an API for machine learning methods, and an evaluation protocol. We also present baseline agents, including behavior cloning, offline variants of actor-critic and MuZero. We improve the state of the art of agents using only offline data, and we achieve 90% win rate against previously published AlphaStar behavior cloning agent.
PDF270December 15, 2024