Ajedrez de Nivel Gran Maestro Sin Búsqueda

Resumen

Los recientes éxitos revolucionarios en el aprendizaje automático se atribuyen principalmente a la escala: concretamente, a arquitecturas basadas en atención a gran escala y conjuntos de datos de un tamaño sin precedentes. Este artículo investiga el impacto del entrenamiento a gran escala en el ajedrez. A diferencia de los motores de ajedrez tradicionales que dependen de heurísticas complejas, búsquedas explícitas o una combinación de ambas, entrenamos un modelo transformador de 270 millones de parámetros con aprendizaje supervisado en un conjunto de datos de 10 millones de partidas de ajedrez. Anotamos cada tablero en el conjunto de datos con valores de acción proporcionados por el potente motor Stockfish 16, lo que resulta en aproximadamente 15 mil millones de puntos de datos. Nuestro modelo más grande alcanza un Elo de 2895 en blitz en Lichess contra humanos y resuelve con éxito una serie de problemas de ajedrez desafiantes, sin ajustes específicos del dominio ni algoritmos de búsqueda explícitos. También demostramos que nuestro modelo supera a las redes de política y valor de AlphaZero (sin MCTS) y a GPT-3.5-turbo-instruct. Una investigación sistemática del tamaño del modelo y del conjunto de datos muestra que un rendimiento fuerte en ajedrez solo surge a una escala suficiente. Para validar nuestros resultados, realizamos una extensa serie de ablaciones de decisiones de diseño e hiperparámetros.

English

The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.

Ajedrez de Nivel Gran Maestro Sin Búsqueda

Grandmaster-Level Chess Without Search

Resumen

Support