Großmeister-Schach ohne Suchalgorithmen

papers.abstract

Die jüngsten Durchbruchserfolge im maschinellen Lernen sind hauptsächlich auf Skalierung zurückzuführen: nämlich groß angelegte, auf Aufmerksamkeit basierende Architekturen und Datensätze von beispiellosem Umfang. Diese Arbeit untersucht die Auswirkungen des Trainings in großem Maßstab für Schach. Im Gegensatz zu traditionellen Schachengines, die auf komplexen Heuristiken, expliziter Suche oder einer Kombination aus beidem basieren, trainieren wir ein Transformer-Modell mit 270 Millionen Parametern mittels überwachtem Lernen auf einem Datensatz von 10 Millionen Schachpartien. Wir annotieren jede Stellung im Datensatz mit Aktionswerten, die von der leistungsstarken Stockfish 16 Engine bereitgestellt werden, was zu etwa 15 Milliarden Datenpunkten führt. Unser größtes Modell erreicht eine Lichess-Blitz-Elo von 2895 gegen menschliche Spieler und löst erfolgreich eine Reihe anspruchsvoller Schachrätsel, ohne domänenspezifische Anpassungen oder explizite Suchalgorithmen zu verwenden. Wir zeigen außerdem, dass unser Modell die Policy- und Value-Networks von AlphaZero (ohne MCTS) und GPT-3.5-turbo-instruct übertrifft. Eine systematische Untersuchung der Modell- und Datensatzgröße zeigt, dass starke Schachleistungen nur bei ausreichender Skalierung entstehen. Um unsere Ergebnisse zu validieren, führen wir eine umfangreiche Reihe von Ablationen zu Designentscheidungen und Hyperparametern durch.

English

The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.

Großmeister-Schach ohne Suchalgorithmen

Grandmaster-Level Chess Without Search

papers.abstract

Support