Xadrez de Nível Grande Mestre Sem Busca

Resumo

Os recentes sucessos revolucionários no aprendizado de máquina são atribuídos principalmente à escala: especificamente, arquiteturas baseadas em atenção em grande escala e conjuntos de dados de escala sem precedentes. Este artigo investiga o impacto do treinamento em escala para o xadrez. Diferentemente dos motores de xadrez tradicionais que dependem de heurísticas complexas, busca explícita ou uma combinação de ambos, treinamos um modelo transformer com 270 milhões de parâmetros usando aprendizado supervisionado em um conjunto de dados de 10 milhões de partidas de xadrez. Anotamos cada tabuleiro no conjunto de dados com valores de ação fornecidos pelo poderoso motor Stockfish 16, resultando em aproximadamente 15 bilhões de pontos de dados. Nosso maior modelo atinge um Elo de 2895 no Lichess blitz contra humanos e resolve com sucesso uma série de quebra-cabeças desafiadores de xadrez, sem qualquer ajuste específico do domínio ou algoritmos de busca explícitos. Também mostramos que nosso modelo supera as redes de política e valor do AlphaZero (sem MCTS) e o GPT-3.5-turbo-instruct. Uma investigação sistemática do tamanho do modelo e do conjunto de dados mostra que um desempenho forte no xadrez só surge em escala suficiente. Para validar nossos resultados, realizamos uma extensa série de ablações de escolhas de design e hiperparâmetros.

English

The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.

Xadrez de Nível Grande Mestre Sem Busca

Grandmaster-Level Chess Without Search

Resumo

Support