ChatPaper.aiChatPaper

Reforço de Aprendizado por Impulso de Gradiente

Gradient Boosting Reinforcement Learning

July 11, 2024
Autores: Benjamin Fuhrer, Chen Tessler, Gal Dalal
cs.AI

Resumo

As redes neurais (NN) alcançam resultados notáveis em várias tarefas, mas carecem de características-chave: interpretabilidade, suporte para características categóricas e implementações leves adequadas para dispositivos de borda. Enquanto esforços em andamento visam enfrentar esses desafios, as Árvores de Impulso de Gradiente (GBT) atendem inerentemente a esses requisitos. Como resultado, as GBTs se tornaram o método preferido para tarefas de aprendizado supervisionado em muitas aplicações do mundo real e competições. No entanto, sua aplicação em cenários de aprendizado online, especialmente em aprendizado por reforço (RL), tem sido limitada. Neste trabalho, superamos essa lacuna ao introduzir o Aprendizado por Reforço com Impulso de Gradiente (GBRL), um framework que estende as vantagens das GBTs para o domínio do RL. Usando o framework GBRL, implementamos vários algoritmos ator-crítico e comparamos seu desempenho com seus equivalentes em NN. Inspirados nos backbones compartilhados em NN, introduzimos uma abordagem de compartilhamento de árvores para funções de política e valor com taxas de aprendizado distintas, aprimorando a eficiência de aprendizado ao longo de milhões de interações. O GBRL alcança desempenho competitivo em uma ampla variedade de tarefas, destacando-se em domínios com características estruturadas ou categóricas. Além disso, apresentamos uma implementação de alto desempenho acelerada por GPU que se integra perfeitamente a bibliotecas de RL amplamente utilizadas (disponível em https://github.com/NVlabs/gbrl). O GBRL expande o conjunto de ferramentas para praticantes de RL, demonstrando a viabilidade e promessa das GBTs dentro do paradigma do RL, especialmente em domínios caracterizados por características estruturadas ou categóricas.
English
Neural networks (NN) achieve remarkable results in various tasks, but lack key characteristics: interpretability, support for categorical features, and lightweight implementations suitable for edge devices. While ongoing efforts aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet these requirements. As a result, GBTs have become the go-to method for supervised learning tasks in many real-world applications and competitions. However, their application in online learning scenarios, notably in reinforcement learning (RL), has been limited. In this work, we bridge this gap by introducing Gradient-Boosting RL (GBRL), a framework that extends the advantages of GBT to the RL domain. Using the GBRL framework, we implement various actor-critic algorithms and compare their performance with their NN counterparts. Inspired by shared backbones in NN we introduce a tree-sharing approach for policy and value functions with distinct learning rates, enhancing learning efficiency over millions of interactions. GBRL achieves competitive performance across a diverse array of tasks, excelling in domains with structured or categorical features. Additionally, we present a high-performance, GPU-accelerated implementation that integrates seamlessly with widely-used RL libraries (available at https://github.com/NVlabs/gbrl). GBRL expands the toolkit for RL practitioners, demonstrating the viability and promise of GBT within the RL paradigm, particularly in domains characterized by structured or categorical features.
PDF132November 28, 2024