Ajedrez de Nivel Gran Maestro Sin Búsqueda
Grandmaster-Level Chess Without Search
February 7, 2024
Autores: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI
Resumen
Los recientes éxitos revolucionarios en el aprendizaje automático se atribuyen principalmente a la escala: concretamente, a arquitecturas basadas en atención a gran escala y conjuntos de datos de un tamaño sin precedentes. Este artículo investiga el impacto del entrenamiento a gran escala en el ajedrez. A diferencia de los motores de ajedrez tradicionales que dependen de heurísticas complejas, búsquedas explícitas o una combinación de ambas, entrenamos un modelo transformador de 270 millones de parámetros con aprendizaje supervisado en un conjunto de datos de 10 millones de partidas de ajedrez. Anotamos cada tablero en el conjunto de datos con valores de acción proporcionados por el potente motor Stockfish 16, lo que resulta en aproximadamente 15 mil millones de puntos de datos. Nuestro modelo más grande alcanza un Elo de 2895 en blitz en Lichess contra humanos y resuelve con éxito una serie de problemas de ajedrez desafiantes, sin ajustes específicos del dominio ni algoritmos de búsqueda explícitos. También demostramos que nuestro modelo supera a las redes de política y valor de AlphaZero (sin MCTS) y a GPT-3.5-turbo-instruct. Una investigación sistemática del tamaño del modelo y del conjunto de datos muestra que un rendimiento fuerte en ajedrez solo surge a una escala suficiente. Para validar nuestros resultados, realizamos una extensa serie de ablaciones de decisiones de diseño e hiperparámetros.
English
The recent breakthrough successes in machine learning are mainly attributed
to scale: namely large-scale attention-based architectures and datasets of
unprecedented scale. This paper investigates the impact of training at scale
for chess. Unlike traditional chess engines that rely on complex heuristics,
explicit search, or a combination of both, we train a 270M parameter
transformer model with supervised learning on a dataset of 10 million chess
games. We annotate each board in the dataset with action-values provided by the
powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our
largest model reaches a Lichess blitz Elo of 2895 against humans, and
successfully solves a series of challenging chess puzzles, without any
domain-specific tweaks or explicit search algorithms. We also show that our
model outperforms AlphaZero's policy and value networks (without MCTS) and
GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size
shows that strong chess performance only arises at sufficient scale. To
validate our results, we perform an extensive series of ablations of design
choices and hyperparameters.