ChatPaper.aiChatPaper

Grootmeesterniveau schaken zonder zoekalgoritmen

Grandmaster-Level Chess Without Search

February 7, 2024
Auteurs: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI

Samenvatting

De recente doorbraken in machine learning zijn voornamelijk toe te schrijven aan schaal: namelijk grootschalige aandacht-gebaseerde architecturen en datasets van ongekende omvang. Dit artikel onderzoekt de impact van training op schaal voor schaken. In tegenstelling tot traditionele schaakengines die vertrouwen op complexe heuristieken, expliciete zoekalgoritmen, of een combinatie van beide, trainen we een transformermodel met 270M parameters met supervised learning op een dataset van 10 miljoen schaakpartijen. We annoteren elk bord in de dataset met actiewaarden die worden geleverd door de krachtige Stockfish 16-engine, wat resulteert in ongeveer 15 miljard datapunten. Ons grootste model bereikt een Lichess blitz Elo van 2895 tegen menselijke tegenstanders en lost succesvol een reeks uitdagende schaakpuzzels op, zonder enige domeinspecifieke aanpassingen of expliciete zoekalgoritmen. We laten ook zien dat ons model de policy- en waardenetwerken van AlphaZero (zonder MCTS) en GPT-3.5-turbo-instruct overtreft. Een systematisch onderzoek naar de grootte van het model en de dataset toont aan dat sterke schaakprestaties alleen ontstaan bij voldoende schaal. Om onze resultaten te valideren, voeren we een uitgebreide reeks ablatie-onderzoeken uit naar ontwerpkeuzes en hyperparameters.
English
The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.
PDF698February 7, 2026