Apprentissage par Renforcement par Boosting de Gradient

papers.abstract

Les réseaux de neurones (NN) obtiennent des résultats remarquables dans diverses tâches, mais manquent de caractéristiques essentielles : interprétabilité, prise en charge des caractéristiques catégorielles et implémentations légères adaptées aux appareils périphériques. Bien que des efforts continus visent à relever ces défis, les arbres à gradient boosting (GBT) répondent naturellement à ces exigences. Par conséquent, les GBT sont devenus la méthode de prédilection pour les tâches d'apprentissage supervisé dans de nombreuses applications et compétitions réelles. Cependant, leur utilisation dans des scénarios d'apprentissage en ligne, notamment en apprentissage par renforcement (RL), a été limitée. Dans ce travail, nous comblons cette lacune en introduisant Gradient-Boosting RL (GBRL), un cadre qui étend les avantages des GBT au domaine du RL. En utilisant le cadre GBRL, nous implémentons divers algorithmes acteur-critique et comparons leurs performances à celles de leurs équivalents basés sur les NN. Inspirés par les architectures partagées dans les NN, nous introduisons une approche de partage d'arbres pour les fonctions de politique et de valeur avec des taux d'apprentissage distincts, améliorant ainsi l'efficacité de l'apprentissage sur des millions d'interactions. GBRL atteint des performances compétitives sur un large éventail de tâches, excellant dans les domaines comportant des caractéristiques structurées ou catégorielles. De plus, nous présentons une implémentation haute performance accélérée par GPU qui s'intègre de manière transparente avec les bibliothèques RL largement utilisées (disponible sur https://github.com/NVlabs/gbrl). GBRL élargit la boîte à outils des praticiens du RL, démontrant la viabilité et le potentiel des GBT dans le paradigme du RL, en particulier dans les domaines caractérisés par des caractéristiques structurées ou catégorielles.

English

Neural networks (NN) achieve remarkable results in various tasks, but lack key characteristics: interpretability, support for categorical features, and lightweight implementations suitable for edge devices. While ongoing efforts aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet these requirements. As a result, GBTs have become the go-to method for supervised learning tasks in many real-world applications and competitions. However, their application in online learning scenarios, notably in reinforcement learning (RL), has been limited. In this work, we bridge this gap by introducing Gradient-Boosting RL (GBRL), a framework that extends the advantages of GBT to the RL domain. Using the GBRL framework, we implement various actor-critic algorithms and compare their performance with their NN counterparts. Inspired by shared backbones in NN we introduce a tree-sharing approach for policy and value functions with distinct learning rates, enhancing learning efficiency over millions of interactions. GBRL achieves competitive performance across a diverse array of tasks, excelling in domains with structured or categorical features. Additionally, we present a high-performance, GPU-accelerated implementation that integrates seamlessly with widely-used RL libraries (available at https://github.com/NVlabs/gbrl). GBRL expands the toolkit for RL practitioners, demonstrating the viability and promise of GBT within the RL paradigm, particularly in domains characterized by structured or categorical features.

Apprentissage par Renforcement par Boosting de Gradient

Gradient Boosting Reinforcement Learning

papers.abstract

Support