ChatPaper.aiChatPaper

Pearl: 프로덕션 준비가 된 강화 학습 에이전트

Pearl: A Production-ready Reinforcement Learning Agent

December 6, 2023
저자: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
cs.AI

초록

강화 학습(Reinforcement Learning, RL)은 장기적인 목표를 달성하기 위한 다재다능한 프레임워크를 제공합니다. 그 일반성 덕분에 지연된 보상 처리, 부분 관측성 대응, 탐색과 활용의 딜레마 해결, 오프라인 데이터를 활용한 온라인 성능 개선, 안전 제약 조건 충족 등 현실 세계의 지능형 시스템이 마주하는 다양한 문제를 공식화할 수 있습니다. RL 연구 커뮤니티가 이러한 문제들을 해결하기 위해 상당한 진전을 이루었음에도 불구하고, 기존의 오픈소스 RL 라이브러리들은 RL 솔루션 파이프라인의 일부에만 초점을 맞추고 있어 다른 측면들은 크게 간과되고 있습니다. 본 논문은 이러한 도전 과제들을 모듈 방식으로 수용하도록 명시적으로 설계된 프로덕션 준비 RL 에이전트 소프트웨어 패키지인 Pearl을 소개합니다. 예비 벤치마크 결과를 제시하는 것 외에도, 본 논문은 Pearl의 산업 도입 사례를 강조하여 프로덕션 사용 준비 상태를 입증합니다. Pearl은 Github( github.com/facebookresearch/pearl )에서 오픈소스로 제공되며, 공식 웹사이트는 pearlagent.github.io 에서 확인할 수 있습니다.
English
Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
PDF162December 15, 2024