Reforço de Aprendizado por Impulso de Gradiente
Gradient Boosting Reinforcement Learning
July 11, 2024
Autores: Benjamin Fuhrer, Chen Tessler, Gal Dalal
cs.AI
Resumo
As redes neurais (NN) alcançam resultados notáveis em várias tarefas, mas carecem de características-chave: interpretabilidade, suporte para características categóricas e implementações leves adequadas para dispositivos de borda. Enquanto esforços em andamento visam enfrentar esses desafios, as Árvores de Impulso de Gradiente (GBT) atendem inerentemente a esses requisitos. Como resultado, as GBTs se tornaram o método preferido para tarefas de aprendizado supervisionado em muitas aplicações do mundo real e competições. No entanto, sua aplicação em cenários de aprendizado online, especialmente em aprendizado por reforço (RL), tem sido limitada. Neste trabalho, superamos essa lacuna ao introduzir o Aprendizado por Reforço com Impulso de Gradiente (GBRL), um framework que estende as vantagens das GBTs para o domínio do RL. Usando o framework GBRL, implementamos vários algoritmos ator-crítico e comparamos seu desempenho com seus equivalentes em NN. Inspirados nos backbones compartilhados em NN, introduzimos uma abordagem de compartilhamento de árvores para funções de política e valor com taxas de aprendizado distintas, aprimorando a eficiência de aprendizado ao longo de milhões de interações. O GBRL alcança desempenho competitivo em uma ampla variedade de tarefas, destacando-se em domínios com características estruturadas ou categóricas. Além disso, apresentamos uma implementação de alto desempenho acelerada por GPU que se integra perfeitamente a bibliotecas de RL amplamente utilizadas (disponível em https://github.com/NVlabs/gbrl). O GBRL expande o conjunto de ferramentas para praticantes de RL, demonstrando a viabilidade e promessa das GBTs dentro do paradigma do RL, especialmente em domínios caracterizados por características estruturadas ou categóricas.
English
Neural networks (NN) achieve remarkable results in various tasks, but lack
key characteristics: interpretability, support for categorical features, and
lightweight implementations suitable for edge devices. While ongoing efforts
aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet
these requirements. As a result, GBTs have become the go-to method for
supervised learning tasks in many real-world applications and competitions.
However, their application in online learning scenarios, notably in
reinforcement learning (RL), has been limited. In this work, we bridge this gap
by introducing Gradient-Boosting RL (GBRL), a framework that extends the
advantages of GBT to the RL domain. Using the GBRL framework, we implement
various actor-critic algorithms and compare their performance with their NN
counterparts. Inspired by shared backbones in NN we introduce a tree-sharing
approach for policy and value functions with distinct learning rates, enhancing
learning efficiency over millions of interactions. GBRL achieves competitive
performance across a diverse array of tasks, excelling in domains with
structured or categorical features. Additionally, we present a
high-performance, GPU-accelerated implementation that integrates seamlessly
with widely-used RL libraries (available at https://github.com/NVlabs/gbrl).
GBRL expands the toolkit for RL practitioners, demonstrating the viability and
promise of GBT within the RL paradigm, particularly in domains characterized by
structured or categorical features.