ChatPaper.aiChatPaper

Pearl: Un Agente de Aprendizaje por Refuerzo Listo para Producción

Pearl: A Production-ready Reinforcement Learning Agent

December 6, 2023
Autores: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
cs.AI

Resumen

El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ofrece un marco versátil para alcanzar objetivos a largo plazo. Su generalidad nos permite formalizar una amplia gama de problemas que enfrentan los sistemas inteligentes del mundo real, como lidiar con recompensas retrasadas, manejar la observabilidad parcial, abordar el dilema de exploración y explotación, utilizar datos fuera de línea para mejorar el rendimiento en línea y garantizar que se cumplan las restricciones de seguridad. A pesar del progreso considerable realizado por la comunidad de investigación en RL para abordar estos problemas, las bibliotecas de RL de código abierto existentes tienden a centrarse en una parte reducida de la cadena de soluciones de RL, dejando otros aspectos en gran medida desatendidos. Este artículo presenta Pearl, un paquete de software de agente de RL listo para producción, diseñado explícitamente para abordar estos desafíos de manera modular. Además de presentar resultados preliminares de referencia, este artículo destaca las adopciones de Pearl en la industria para demostrar su preparación para su uso en producción. Pearl es de código abierto en Github en github.com/facebookresearch/pearl y su sitio web oficial se encuentra en pearlagent.github.io.
English
Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
PDF162December 15, 2024