Усиленное обучение с градиентным бустингом

Аннотация

Нейронные сети (НС) достигают выдающихся результатов в различных задачах, но лишены ключевых характеристик: интерпретируемости, поддержки категориальных признаков и легковесных реализаций, подходящих для периферийных устройств. В то время как текущие усилия направлены на решение этих проблем, Градиентный Бустинг Деревьев (GBT) по своей природе удовлетворяет этим требованиям. В результате GBT стали основным методом для задач обучения с учителем во многих прикладных областях и соревнованиях. Однако их применение в сценариях онлайн-обучения, особенно в обучении с подкреплением (RL), ограничено. В данной работе мы сокращаем этот разрыв, представляя Градиентное Бустинговое RL (GBRL), фреймворк, который расширяет преимущества GBT на область RL. Используя фреймворк GBRL, мы реализуем различные алгоритмы актор-критик и сравниваем их производительность с их аналогами на НС. Вдохновленные общими основами в НС, мы предлагаем подход к совместному использованию деревьев для функций политики и ценности с различными скоростями обучения, улучшая эффективность обучения на миллионах взаимодействий. GBRL достигает конкурентоспособной производительности в разнообразных задачах, преуспевая в областях со структурированными или категориальными признаками. Кроме того, мы представляем высокопроизводительную, ускоренную с помощью GPU реализацию, которая интегрируется без проблем с широко используемыми библиотеками RL (доступно на https://github.com/NVlabs/gbrl). GBRL расширяет набор инструментов для практиков RL, демонстрируя жизнеспособность и перспективы GBT в рамках парадигмы RL, особенно в областях, характеризующихся структурированными или категориальными признаками.

English

Neural networks (NN) achieve remarkable results in various tasks, but lack key characteristics: interpretability, support for categorical features, and lightweight implementations suitable for edge devices. While ongoing efforts aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet these requirements. As a result, GBTs have become the go-to method for supervised learning tasks in many real-world applications and competitions. However, their application in online learning scenarios, notably in reinforcement learning (RL), has been limited. In this work, we bridge this gap by introducing Gradient-Boosting RL (GBRL), a framework that extends the advantages of GBT to the RL domain. Using the GBRL framework, we implement various actor-critic algorithms and compare their performance with their NN counterparts. Inspired by shared backbones in NN we introduce a tree-sharing approach for policy and value functions with distinct learning rates, enhancing learning efficiency over millions of interactions. GBRL achieves competitive performance across a diverse array of tasks, excelling in domains with structured or categorical features. Additionally, we present a high-performance, GPU-accelerated implementation that integrates seamlessly with widely-used RL libraries (available at https://github.com/NVlabs/gbrl). GBRL expands the toolkit for RL practitioners, demonstrating the viability and promise of GBT within the RL paradigm, particularly in domains characterized by structured or categorical features.

Усиленное обучение с градиентным бустингом

Gradient Boosting Reinforcement Learning

Аннотация

Support