Scacchi a livello di Gran Maestro Senza Ricerca
Grandmaster-Level Chess Without Search
February 7, 2024
Autori: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI
Abstract
I recenti successi rivoluzionari nel campo dell'apprendimento automatico sono principalmente attribuiti alla scala: ovvero architetture basate su meccanismi di attenzione su larga scala e dataset di dimensioni senza precedenti. Questo articolo indaga l'impatto dell'addestramento su larga scala nel contesto degli scacchi. A differenza dei tradizionali motori scacchistici che si basano su euristiche complesse, ricerca esplicita o una combinazione di entrambi, addestriamo un modello transformer da 270 milioni di parametri con apprendimento supervisionato su un dataset di 10 milioni di partite di scacchi. Annotiamo ogni scacchiera nel dataset con valori di azione forniti dal potente motore Stockfish 16, ottenendo circa 15 miliardi di punti dati. Il nostro modello più grande raggiunge un punteggio Elo blitz su Lichess di 2895 contro esseri umani e risolve con successo una serie di complessi problemi scacchistici, senza alcuna modifica specifica per il dominio o algoritmi di ricerca espliciti. Dimostriamo inoltre che il nostro modello supera le reti di policy e valore di AlphaZero (senza MCTS) e GPT-3.5-turbo-instruct. Un'indagine sistematica delle dimensioni del modello e del dataset mostra che prestazioni scacchistiche solide emergono solo a una scala sufficiente. Per validare i nostri risultati, eseguiamo un'ampia serie di ablazioni sulle scelte progettuali e sugli iperparametri.
English
The recent breakthrough successes in machine learning are mainly attributed
to scale: namely large-scale attention-based architectures and datasets of
unprecedented scale. This paper investigates the impact of training at scale
for chess. Unlike traditional chess engines that rely on complex heuristics,
explicit search, or a combination of both, we train a 270M parameter
transformer model with supervised learning on a dataset of 10 million chess
games. We annotate each board in the dataset with action-values provided by the
powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our
largest model reaches a Lichess blitz Elo of 2895 against humans, and
successfully solves a series of challenging chess puzzles, without any
domain-specific tweaks or explicit search algorithms. We also show that our
model outperforms AlphaZero's policy and value networks (without MCTS) and
GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size
shows that strong chess performance only arises at sufficient scale. To
validate our results, we perform an extensive series of ablations of design
choices and hyperparameters.