ChatPaper.aiChatPaper

Pearl: Um Agente de Aprendizado por Reforço Pronto para Produção

Pearl: A Production-ready Reinforcement Learning Agent

December 6, 2023
Autores: Zheqing Zhu, Rodrigo de Salvo Braz, Jalaj Bhandari, Daniel Jiang, Yi Wan, Yonathan Efroni, Liyuan Wang, Ruiyang Xu, Hongbo Guo, Alex Nikulkov, Dmytro Korenkevych, Urun Dogan, Frank Cheng, Zheng Wu, Wanqiao Xu
cs.AI

Resumo

O Aprendizado por Reforço (RL, do inglês Reinforcement Learning) oferece uma estrutura versátil para alcançar objetivos de longo prazo. Sua generalidade nos permite formalizar uma ampla gama de problemas que sistemas inteligentes do mundo real enfrentam, como lidar com recompensas atrasadas, gerenciar observabilidade parcial, abordar o dilema entre exploração e exploração, utilizar dados offline para melhorar o desempenho online e garantir que as restrições de segurança sejam atendidas. Apesar do progresso considerável feito pela comunidade de pesquisa em RL ao abordar essas questões, as bibliotecas de RL de código aberto existentes tendem a se concentrar em uma parte estreita do pipeline de soluções de RL, deixando outros aspectos amplamente negligenciados. Este artigo apresenta o Pearl, um pacote de software de agente RL pronto para produção, projetado explicitamente para enfrentar esses desafios de forma modular. Além de apresentar resultados preliminares de benchmarks, este artigo destaca as adoções do Pearl na indústria para demonstrar sua prontidão para uso em produção. O Pearl é disponibilizado como código aberto no Github em github.com/facebookresearch/pearl, e seu site oficial está localizado em pearlagent.github.io.
English
Reinforcement Learning (RL) offers a versatile framework for achieving long-term goals. Its generality allows us to formalize a wide range of problems that real-world intelligent systems encounter, such as dealing with delayed rewards, handling partial observability, addressing the exploration and exploitation dilemma, utilizing offline data to improve online performance, and ensuring safety constraints are met. Despite considerable progress made by the RL research community in addressing these issues, existing open-source RL libraries tend to focus on a narrow portion of the RL solution pipeline, leaving other aspects largely unattended. This paper introduces Pearl, a Production-ready RL agent software package explicitly designed to embrace these challenges in a modular fashion. In addition to presenting preliminary benchmark results, this paper highlights Pearl's industry adoptions to demonstrate its readiness for production usage. Pearl is open sourced on Github at github.com/facebookresearch/pearl and its official website is located at pearlagent.github.io.
PDF152February 7, 2026