Pearl: プロダクション対応の強化学習エージェント
Pearl: A Production-ready Reinforcement Learning Agent
December 6, 2023
著者: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
cs.AI
要旨
強化学習(Reinforcement Learning, RL)は、長期的な目標を達成するための汎用的なフレームワークを提供します。その汎用性により、現実世界の知的システムが直面する多様な問題を形式化することが可能です。これには、遅延報酬への対応、部分観測性の処理、探索と活用のジレンマへの対処、オフラインデータを活用したオンラインパフォーマンスの向上、安全性制約の遵守などが含まれます。RL研究コミュニティはこれらの課題に対処するために大きな進展を遂げてきましたが、既存のオープンソースRLライブラリは、RLソリューションパイプラインの一部に焦点を当てる傾向があり、他の側面はほとんど手つかずのままです。本論文では、これらの課題をモジュール方式で包括的に取り組むために設計された、プロダクションレディなRLエージェントソフトウェアパッケージ「Pearl」を紹介します。予備的なベンチマーク結果を提示するだけでなく、Pearlの産業界での採用事例を強調し、そのプロダクション使用への適合性を実証します。PearlはGithub(github.com/facebookresearch/pearl)でオープンソース化されており、公式ウェブサイトはpearlagent.github.ioにあります。
English
Reinforcement Learning (RL) offers a versatile framework for achieving
long-term goals. Its generality allows us to formalize a wide range of problems
that real-world intelligent systems encounter, such as dealing with delayed
rewards, handling partial observability, addressing the exploration and
exploitation dilemma, utilizing offline data to improve online performance, and
ensuring safety constraints are met. Despite considerable progress made by the
RL research community in addressing these issues, existing open-source RL
libraries tend to focus on a narrow portion of the RL solution pipeline,
leaving other aspects largely unattended. This paper introduces Pearl, a
Production-ready RL agent software package explicitly designed to embrace these
challenges in a modular fashion. In addition to presenting preliminary
benchmark results, this paper highlights Pearl's industry adoptions to
demonstrate its readiness for production usage. Pearl is open sourced on Github
at github.com/facebookresearch/pearl and its official website is located at
pearlagent.github.io.