Apprentissage par Renforcement par Boosting de Gradient
Gradient Boosting Reinforcement Learning
July 11, 2024
Auteurs: Benjamin Fuhrer, Chen Tessler, Gal Dalal
cs.AI
Résumé
Les réseaux de neurones (NN) obtiennent des résultats remarquables dans diverses tâches, mais manquent de caractéristiques essentielles : interprétabilité, prise en charge des caractéristiques catégorielles et implémentations légères adaptées aux appareils périphériques. Bien que des efforts continus visent à relever ces défis, les arbres à gradient boosting (GBT) répondent naturellement à ces exigences. Par conséquent, les GBT sont devenus la méthode de prédilection pour les tâches d'apprentissage supervisé dans de nombreuses applications et compétitions réelles. Cependant, leur utilisation dans des scénarios d'apprentissage en ligne, notamment en apprentissage par renforcement (RL), a été limitée. Dans ce travail, nous comblons cette lacune en introduisant Gradient-Boosting RL (GBRL), un cadre qui étend les avantages des GBT au domaine du RL. En utilisant le cadre GBRL, nous implémentons divers algorithmes acteur-critique et comparons leurs performances à celles de leurs équivalents basés sur les NN. Inspirés par les architectures partagées dans les NN, nous introduisons une approche de partage d'arbres pour les fonctions de politique et de valeur avec des taux d'apprentissage distincts, améliorant ainsi l'efficacité de l'apprentissage sur des millions d'interactions. GBRL atteint des performances compétitives sur un large éventail de tâches, excellant dans les domaines comportant des caractéristiques structurées ou catégorielles. De plus, nous présentons une implémentation haute performance accélérée par GPU qui s'intègre de manière transparente avec les bibliothèques RL largement utilisées (disponible sur https://github.com/NVlabs/gbrl). GBRL élargit la boîte à outils des praticiens du RL, démontrant la viabilité et le potentiel des GBT dans le paradigme du RL, en particulier dans les domaines caractérisés par des caractéristiques structurées ou catégorielles.
English
Neural networks (NN) achieve remarkable results in various tasks, but lack
key characteristics: interpretability, support for categorical features, and
lightweight implementations suitable for edge devices. While ongoing efforts
aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet
these requirements. As a result, GBTs have become the go-to method for
supervised learning tasks in many real-world applications and competitions.
However, their application in online learning scenarios, notably in
reinforcement learning (RL), has been limited. In this work, we bridge this gap
by introducing Gradient-Boosting RL (GBRL), a framework that extends the
advantages of GBT to the RL domain. Using the GBRL framework, we implement
various actor-critic algorithms and compare their performance with their NN
counterparts. Inspired by shared backbones in NN we introduce a tree-sharing
approach for policy and value functions with distinct learning rates, enhancing
learning efficiency over millions of interactions. GBRL achieves competitive
performance across a diverse array of tasks, excelling in domains with
structured or categorical features. Additionally, we present a
high-performance, GPU-accelerated implementation that integrates seamlessly
with widely-used RL libraries (available at https://github.com/NVlabs/gbrl).
GBRL expands the toolkit for RL practitioners, demonstrating the viability and
promise of GBT within the RL paradigm, particularly in domains characterized by
structured or categorical features.Summary
AI-Generated Summary