Усиленное обучение с градиентным бустингом
Gradient Boosting Reinforcement Learning
July 11, 2024
Авторы: Benjamin Fuhrer, Chen Tessler, Gal Dalal
cs.AI
Аннотация
Нейронные сети (НС) достигают выдающихся результатов в различных задачах, но лишены ключевых характеристик: интерпретируемости, поддержки категориальных признаков и легковесных реализаций, подходящих для периферийных устройств. В то время как текущие усилия направлены на решение этих проблем, Градиентный Бустинг Деревьев (GBT) по своей природе удовлетворяет этим требованиям. В результате GBT стали основным методом для задач обучения с учителем во многих прикладных областях и соревнованиях. Однако их применение в сценариях онлайн-обучения, особенно в обучении с подкреплением (RL), ограничено. В данной работе мы сокращаем этот разрыв, представляя Градиентное Бустинговое RL (GBRL), фреймворк, который расширяет преимущества GBT на область RL. Используя фреймворк GBRL, мы реализуем различные алгоритмы актор-критик и сравниваем их производительность с их аналогами на НС. Вдохновленные общими основами в НС, мы предлагаем подход к совместному использованию деревьев для функций политики и ценности с различными скоростями обучения, улучшая эффективность обучения на миллионах взаимодействий. GBRL достигает конкурентоспособной производительности в разнообразных задачах, преуспевая в областях со структурированными или категориальными признаками. Кроме того, мы представляем высокопроизводительную, ускоренную с помощью GPU реализацию, которая интегрируется без проблем с широко используемыми библиотеками RL (доступно на https://github.com/NVlabs/gbrl). GBRL расширяет набор инструментов для практиков RL, демонстрируя жизнеспособность и перспективы GBT в рамках парадигмы RL, особенно в областях, характеризующихся структурированными или категориальными признаками.
English
Neural networks (NN) achieve remarkable results in various tasks, but lack
key characteristics: interpretability, support for categorical features, and
lightweight implementations suitable for edge devices. While ongoing efforts
aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet
these requirements. As a result, GBTs have become the go-to method for
supervised learning tasks in many real-world applications and competitions.
However, their application in online learning scenarios, notably in
reinforcement learning (RL), has been limited. In this work, we bridge this gap
by introducing Gradient-Boosting RL (GBRL), a framework that extends the
advantages of GBT to the RL domain. Using the GBRL framework, we implement
various actor-critic algorithms and compare their performance with their NN
counterparts. Inspired by shared backbones in NN we introduce a tree-sharing
approach for policy and value functions with distinct learning rates, enhancing
learning efficiency over millions of interactions. GBRL achieves competitive
performance across a diverse array of tasks, excelling in domains with
structured or categorical features. Additionally, we present a
high-performance, GPU-accelerated implementation that integrates seamlessly
with widely-used RL libraries (available at https://github.com/NVlabs/gbrl).
GBRL expands the toolkit for RL practitioners, demonstrating the viability and
promise of GBT within the RL paradigm, particularly in domains characterized by
structured or categorical features.Summary
AI-Generated Summary