Aprendizaje por Refuerzo con Reforzamiento de Gradiente
Gradient Boosting Reinforcement Learning
July 11, 2024
Autores: Benjamin Fuhrer, Chen Tessler, Gal Dalal
cs.AI
Resumen
Las redes neuronales (NN) logran resultados notables en diversas tareas, pero carecen de características clave: interpretabilidad, soporte para características categóricas e implementaciones livianas adecuadas para dispositivos de borde. Si bien los esfuerzos en curso buscan abordar estos desafíos, los Árboles de Impulso de Gradiente (GBT) cumplen inherentemente con estos requisitos. Como resultado, los GBT se han convertido en el método preferido para tareas de aprendizaje supervisado en muchas aplicaciones del mundo real y competiciones. Sin embargo, su aplicación en escenarios de aprendizaje en línea, especialmente en aprendizaje por refuerzo (RL), ha sido limitada. En este trabajo, cerramos esta brecha presentando el Aprendizaje por Refuerzo con Impulso de Gradiente (GBRL), un marco que extiende las ventajas de los GBT al dominio del RL. Utilizando el marco GBRL, implementamos varios algoritmos actor-critic y comparamos su rendimiento con sus contrapartes de NN. Inspirados por las estructuras compartidas en NN, introducimos un enfoque de intercambio de árboles para funciones de política y valor con tasas de aprendizaje distintas, mejorando la eficiencia de aprendizaje a lo largo de millones de interacciones. GBRL logra un rendimiento competitivo en una amplia gama de tareas, destacándose en dominios con características estructuradas o categóricas. Además, presentamos una implementación de alto rendimiento acelerada por GPU que se integra perfectamente con bibliotecas de RL ampliamente utilizadas (disponible en https://github.com/NVlabs/gbrl). GBRL amplía el conjunto de herramientas para los practicantes de RL, demostrando la viabilidad y promesa de los GBT dentro del paradigma de RL, especialmente en dominios caracterizados por características estructuradas o categóricas.
English
Neural networks (NN) achieve remarkable results in various tasks, but lack
key characteristics: interpretability, support for categorical features, and
lightweight implementations suitable for edge devices. While ongoing efforts
aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet
these requirements. As a result, GBTs have become the go-to method for
supervised learning tasks in many real-world applications and competitions.
However, their application in online learning scenarios, notably in
reinforcement learning (RL), has been limited. In this work, we bridge this gap
by introducing Gradient-Boosting RL (GBRL), a framework that extends the
advantages of GBT to the RL domain. Using the GBRL framework, we implement
various actor-critic algorithms and compare their performance with their NN
counterparts. Inspired by shared backbones in NN we introduce a tree-sharing
approach for policy and value functions with distinct learning rates, enhancing
learning efficiency over millions of interactions. GBRL achieves competitive
performance across a diverse array of tasks, excelling in domains with
structured or categorical features. Additionally, we present a
high-performance, GPU-accelerated implementation that integrates seamlessly
with widely-used RL libraries (available at https://github.com/NVlabs/gbrl).
GBRL expands the toolkit for RL practitioners, demonstrating the viability and
promise of GBT within the RL paradigm, particularly in domains characterized by
structured or categorical features.Summary
AI-Generated Summary