Pearl: Готовый к производству агент обучения с подкреплением
Pearl: A Production-ready Reinforcement Learning Agent
December 6, 2023
Авторы: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) предоставляет универсальную основу для достижения долгосрочных целей. Его общность позволяет формализовать широкий спектр задач, с которыми сталкиваются реальные интеллектуальные системы, таких как работа с отложенными вознаграждениями, обработка частичной наблюдаемости, решение дилеммы исследования и эксплуатации, использование оффлайн-данных для улучшения онлайн-производительности и обеспечение соблюдения ограничений безопасности. Несмотря на значительный прогресс, достигнутый исследовательским сообществом RL в решении этих проблем, существующие библиотеки с открытым исходным кодом, как правило, сосредоточены на узкой части конвейера решений RL, оставляя другие аспекты практически без внимания. В данной статье представлен Pearl — готовый к производственному использованию программный пакет RL-агентов, разработанный специально для модульного решения этих задач. Помимо представления предварительных результатов тестирования, в статье подчеркиваются примеры внедрения Pearl в промышленности, демонстрирующие его готовность к использованию в производственных условиях. Pearl доступен в открытом доступе на Github по адресу github.com/facebookresearch/pearl, а его официальный сайт находится по адресу pearlagent.github.io.
English
Reinforcement Learning (RL) offers a versatile framework for achieving
long-term goals. Its generality allows us to formalize a wide range of problems
that real-world intelligent systems encounter, such as dealing with delayed
rewards, handling partial observability, addressing the exploration and
exploitation dilemma, utilizing offline data to improve online performance, and
ensuring safety constraints are met. Despite considerable progress made by the
RL research community in addressing these issues, existing open-source RL
libraries tend to focus on a narrow portion of the RL solution pipeline,
leaving other aspects largely unattended. This paper introduces Pearl, a
Production-ready RL agent software package explicitly designed to embrace these
challenges in a modular fashion. In addition to presenting preliminary
benchmark results, this paper highlights Pearl's industry adoptions to
demonstrate its readiness for production usage. Pearl is open sourced on Github
at github.com/facebookresearch/pearl and its official website is located at
pearlagent.github.io.