Großmeister-Schach ohne Suchalgorithmen
Grandmaster-Level Chess Without Search
February 7, 2024
Autoren: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI
Zusammenfassung
Die jüngsten Durchbruchserfolge im maschinellen Lernen sind hauptsächlich auf Skalierung zurückzuführen: nämlich groß angelegte, auf Aufmerksamkeit basierende Architekturen und Datensätze von beispiellosem Umfang. Diese Arbeit untersucht die Auswirkungen des Trainings in großem Maßstab für Schach. Im Gegensatz zu traditionellen Schachengines, die auf komplexen Heuristiken, expliziter Suche oder einer Kombination aus beidem basieren, trainieren wir ein Transformer-Modell mit 270 Millionen Parametern mittels überwachtem Lernen auf einem Datensatz von 10 Millionen Schachpartien. Wir annotieren jede Stellung im Datensatz mit Aktionswerten, die von der leistungsstarken Stockfish 16 Engine bereitgestellt werden, was zu etwa 15 Milliarden Datenpunkten führt. Unser größtes Modell erreicht eine Lichess-Blitz-Elo von 2895 gegen menschliche Spieler und löst erfolgreich eine Reihe anspruchsvoller Schachrätsel, ohne domänenspezifische Anpassungen oder explizite Suchalgorithmen zu verwenden. Wir zeigen außerdem, dass unser Modell die Policy- und Value-Networks von AlphaZero (ohne MCTS) und GPT-3.5-turbo-instruct übertrifft. Eine systematische Untersuchung der Modell- und Datensatzgröße zeigt, dass starke Schachleistungen nur bei ausreichender Skalierung entstehen. Um unsere Ergebnisse zu validieren, führen wir eine umfangreiche Reihe von Ablationen zu Designentscheidungen und Hyperparametern durch.
English
The recent breakthrough successes in machine learning are mainly attributed
to scale: namely large-scale attention-based architectures and datasets of
unprecedented scale. This paper investigates the impact of training at scale
for chess. Unlike traditional chess engines that rely on complex heuristics,
explicit search, or a combination of both, we train a 270M parameter
transformer model with supervised learning on a dataset of 10 million chess
games. We annotate each board in the dataset with action-values provided by the
powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our
largest model reaches a Lichess blitz Elo of 2895 against humans, and
successfully solves a series of challenging chess puzzles, without any
domain-specific tweaks or explicit search algorithms. We also show that our
model outperforms AlphaZero's policy and value networks (without MCTS) and
GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size
shows that strong chess performance only arises at sufficient scale. To
validate our results, we perform an extensive series of ablations of design
choices and hyperparameters.