ChatPaper.aiChatPaper

Шахматы уровня гроссмейстера без использования поиска

Grandmaster-Level Chess Without Search

February 7, 2024
Авторы: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
cs.AI

Аннотация

Недавние прорывные успехи в машинном обучении в основном связаны с масштабом: а именно, с крупномасштабными архитектурами на основе механизма внимания и наборами данных беспрецедентного размера. В данной статье исследуется влияние обучения в масштабе на игру в шахматы. В отличие от традиционных шахматных движков, которые полагаются на сложные эвристики, явный поиск или их комбинацию, мы обучаем трансформерную модель с 270 миллионами параметров с использованием обучения с учителем на наборе данных из 10 миллионов шахматных партий. Мы аннотируем каждую позицию в наборе данных значениями действий, предоставленными мощным движком Stockfish 16, что приводит к примерно 15 миллиардам точек данных. Наша крупнейшая модель достигает рейтинга Elo 2895 в блице на платформе Lichess против людей и успешно решает серию сложных шахматных задач без каких-либо специфических для домена настроек или явных алгоритмов поиска. Мы также показываем, что наша модель превосходит политические и оценочные сети AlphaZero (без использования MCTS) и GPT-3.5-turbo-instruct. Систематическое исследование размера модели и набора данных показывает, что сильная шахматная производительность достигается только при достаточном масштабе. Для проверки наших результатов мы проводим обширную серию экспериментов с исключением различных вариантов дизайна и гиперпараметров.
English
The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.
PDF708December 15, 2024