Jeu d'échecs de niveau Grand Maître sans recherche arborescente
Grandmaster-Level Chess Without Search
February 7, 2024
Auteurs: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI
Résumé
Les récents succès révolutionnaires en apprentissage automatique sont principalement attribués à l'échelle : à savoir des architectures basées sur l'attention à grande échelle et des jeux de données d'une ampleur sans précédent. Cet article étudie l'impact de l'entraînement à grande échelle pour les échecs. Contrairement aux moteurs d'échecs traditionnels qui reposent sur des heuristiques complexes, une recherche explicite ou une combinaison des deux, nous entraînons un modèle transformeur de 270 millions de paramètres avec un apprentissage supervisé sur un jeu de données de 10 millions de parties d'échecs. Nous annotons chaque position du jeu de données avec des valeurs d'action fournies par le puissant moteur Stockfish 16, ce qui conduit à environ 15 milliards de points de données. Notre plus grand modèle atteint un Elo blitz Lichess de 2895 contre des humains et résout avec succès une série de puzzles d'échecs complexes, sans aucun ajustement spécifique au domaine ou algorithme de recherche explicite. Nous montrons également que notre modèle surpasse les réseaux de politique et de valeur d'AlphaZero (sans MCTS) et GPT-3.5-turbo-instruct. Une investigation systématique de la taille du modèle et du jeu de données montre qu'une performance forte aux échecs n'émerge qu'à une échelle suffisante. Pour valider nos résultats, nous effectuons une série extensive d'ablation des choix de conception et des hyperparamètres.
English
The recent breakthrough successes in machine learning are mainly attributed
to scale: namely large-scale attention-based architectures and datasets of
unprecedented scale. This paper investigates the impact of training at scale
for chess. Unlike traditional chess engines that rely on complex heuristics,
explicit search, or a combination of both, we train a 270M parameter
transformer model with supervised learning on a dataset of 10 million chess
games. We annotate each board in the dataset with action-values provided by the
powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our
largest model reaches a Lichess blitz Elo of 2895 against humans, and
successfully solves a series of challenging chess puzzles, without any
domain-specific tweaks or explicit search algorithms. We also show that our
model outperforms AlphaZero's policy and value networks (without MCTS) and
GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size
shows that strong chess performance only arises at sufficient scale. To
validate our results, we perform an extensive series of ablations of design
choices and hyperparameters.