ChatPaper.aiChatPaper

Pearl: Готовый к производству агент обучения с подкреплением

Pearl: A Production-ready Reinforcement Learning Agent

December 6, 2023
Авторы: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
cs.AI

Аннотация

Обучение с подкреплением (Reinforcement Learning, RL) предоставляет универсальную основу для достижения долгосрочных целей. Его общность позволяет формализовать широкий спектр задач, с которыми сталкиваются реальные интеллектуальные системы, таких как работа с отложенными вознаграждениями, обработка частичной наблюдаемости, решение дилеммы исследования и эксплуатации, использование оффлайн-данных для улучшения онлайн-производительности и обеспечение соблюдения ограничений безопасности. Несмотря на значительный прогресс, достигнутый исследовательским сообществом RL в решении этих проблем, существующие библиотеки с открытым исходным кодом, как правило, сосредоточены на узкой части конвейера решений RL, оставляя другие аспекты практически без внимания. В данной статье представлен Pearl — готовый к производственному использованию программный пакет RL-агентов, разработанный специально для модульного решения этих задач. Помимо представления предварительных результатов тестирования, в статье подчеркиваются примеры внедрения Pearl в промышленности, демонстрирующие его готовность к использованию в производственных условиях. Pearl доступен в открытом доступе на Github по адресу github.com/facebookresearch/pearl, а его официальный сайт находится по адресу pearlagent.github.io.
English
Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
PDF162December 15, 2024