Xadrez de Nível Grande Mestre Sem Busca
Grandmaster-Level Chess Without Search
February 7, 2024
Autores: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI
Resumo
Os recentes sucessos revolucionários no aprendizado de máquina são atribuídos principalmente à escala: especificamente, arquiteturas baseadas em atenção em grande escala e conjuntos de dados de escala sem precedentes. Este artigo investiga o impacto do treinamento em escala para o xadrez. Diferentemente dos motores de xadrez tradicionais que dependem de heurísticas complexas, busca explícita ou uma combinação de ambos, treinamos um modelo transformer com 270 milhões de parâmetros usando aprendizado supervisionado em um conjunto de dados de 10 milhões de partidas de xadrez. Anotamos cada tabuleiro no conjunto de dados com valores de ação fornecidos pelo poderoso motor Stockfish 16, resultando em aproximadamente 15 bilhões de pontos de dados. Nosso maior modelo atinge um Elo de 2895 no Lichess blitz contra humanos e resolve com sucesso uma série de quebra-cabeças desafiadores de xadrez, sem qualquer ajuste específico do domínio ou algoritmos de busca explícitos. Também mostramos que nosso modelo supera as redes de política e valor do AlphaZero (sem MCTS) e o GPT-3.5-turbo-instruct. Uma investigação sistemática do tamanho do modelo e do conjunto de dados mostra que um desempenho forte no xadrez só surge em escala suficiente. Para validar nossos resultados, realizamos uma extensa série de ablações de escolhas de design e hiperparâmetros.
English
The recent breakthrough successes in machine learning are mainly attributed
to scale: namely large-scale attention-based architectures and datasets of
unprecedented scale. This paper investigates the impact of training at scale
for chess. Unlike traditional chess engines that rely on complex heuristics,
explicit search, or a combination of both, we train a 270M parameter
transformer model with supervised learning on a dataset of 10 million chess
games. We annotate each board in the dataset with action-values provided by the
powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our
largest model reaches a Lichess blitz Elo of 2895 against humans, and
successfully solves a series of challenging chess puzzles, without any
domain-specific tweaks or explicit search algorithms. We also show that our
model outperforms AlphaZero's policy and value networks (without MCTS) and
GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size
shows that strong chess performance only arises at sufficient scale. To
validate our results, we perform an extensive series of ablations of design
choices and hyperparameters.