Gradient Boosting Versterkend Leren
Gradient Boosting Reinforcement Learning
July 11, 2024
Auteurs: Benjamin Fuhrer, Chen Tessler, Gal Dalal
cs.AI
Samenvatting
Neurale netwerken (NN) behalen opmerkelijke resultaten in diverse taken, maar missen belangrijke kenmerken: interpreteerbaarheid, ondersteuning voor categorische kenmerken, en lichtgewicht implementaties geschikt voor edge-apparaten. Hoewel lopende inspanningen gericht zijn op het aanpakken van deze uitdagingen, voldoen Gradient Boosting Trees (GBT) van nature aan deze vereisten. Als gevolg hiervan zijn GBT's de standaardmethode geworden voor supervised learning-taken in veel real-world toepassingen en competities. Hun toepassing in online leeromgevingen, met name in reinforcement learning (RL), is echter beperkt gebleven. In dit werk overbruggen we deze kloof door Gradient-Boosting RL (GBRL) te introduceren, een raamwerk dat de voordelen van GBT uitbreidt naar het RL-domein. Met behulp van het GBRL-raamwerk implementeren we verschillende actor-critic algoritmen en vergelijken we hun prestaties met hun NN-tegenhangers. Geïnspireerd door gedeelde backbones in NN introduceren we een tree-sharing benadering voor beleids- en waardefuncties met verschillende leerfrequenties, wat de leer efficiëntie verbetert over miljoenen interacties. GBRL behaalt competitieve prestaties over een diverse reeks taken, met name in domeinen met gestructureerde of categorische kenmerken. Daarnaast presenteren we een hoogwaardige, GPU-versnelde implementatie die naadloos integreert met veelgebruikte RL-bibliotheken (beschikbaar op https://github.com/NVlabs/gbrl). GBRL breidt de toolkit uit voor RL-beoefenaars en toont de haalbaarheid en belofte van GBT binnen het RL-paradigma, vooral in domeinen die worden gekenmerkt door gestructureerde of categorische kenmerken.
English
Neural networks (NN) achieve remarkable results in various tasks, but lack
key characteristics: interpretability, support for categorical features, and
lightweight implementations suitable for edge devices. While ongoing efforts
aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet
these requirements. As a result, GBTs have become the go-to method for
supervised learning tasks in many real-world applications and competitions.
However, their application in online learning scenarios, notably in
reinforcement learning (RL), has been limited. In this work, we bridge this gap
by introducing Gradient-Boosting RL (GBRL), a framework that extends the
advantages of GBT to the RL domain. Using the GBRL framework, we implement
various actor-critic algorithms and compare their performance with their NN
counterparts. Inspired by shared backbones in NN we introduce a tree-sharing
approach for policy and value functions with distinct learning rates, enhancing
learning efficiency over millions of interactions. GBRL achieves competitive
performance across a diverse array of tasks, excelling in domains with
structured or categorical features. Additionally, we present a
high-performance, GPU-accelerated implementation that integrates seamlessly
with widely-used RL libraries (available at https://github.com/NVlabs/gbrl).
GBRL expands the toolkit for RL practitioners, demonstrating the viability and
promise of GBT within the RL paradigm, particularly in domains characterized by
structured or categorical features.