Больше, лучше, быстрее: Человеческий уровень в Atari с человеческой эффективностью
Bigger, Better, Faster: Human-level Atari with human-level efficiency
May 30, 2023
Авторы: Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro
cs.AI
Аннотация
Мы представляем агента с обучением с подкреплением на основе оценки ценности, которого мы называем BBF, который демонстрирует сверхчеловеческую производительность в бенчмарке Atari 100K. BBF опирается на масштабирование нейронных сетей, используемых для оценки ценности, а также на ряд других проектных решений, которые позволяют осуществлять это масштабирование с высокой эффективностью использования данных. Мы проводим всесторонний анализ этих проектных решений и предоставляем инсайты для будущих исследований. Завершаем обсуждением необходимости обновления критериев для исследований в области эффективного обучения с подкреплением на платформе ALE. Наш код и данные доступны публично по адресу https://github.com/google-research/google-research/tree/master/bigger_better_faster.
English
We introduce a value-based RL agent, which we call BBF, that achieves
super-human performance in the Atari 100K benchmark. BBF relies on scaling the
neural networks used for value estimation, as well as a number of other design
choices that enable this scaling in a sample-efficient manner. We conduct
extensive analyses of these design choices and provide insights for future
work. We end with a discussion about updating the goalposts for
sample-efficient RL research on the ALE. We make our code and data publicly
available at
https://github.com/google-research/google-research/tree/master/bigger_better_faster.