Aprendizaje por Refuerzo con Reforzamiento de Gradiente

Resumen

Las redes neuronales (NN) logran resultados notables en diversas tareas, pero carecen de características clave: interpretabilidad, soporte para características categóricas e implementaciones livianas adecuadas para dispositivos de borde. Si bien los esfuerzos en curso buscan abordar estos desafíos, los Árboles de Impulso de Gradiente (GBT) cumplen inherentemente con estos requisitos. Como resultado, los GBT se han convertido en el método preferido para tareas de aprendizaje supervisado en muchas aplicaciones del mundo real y competiciones. Sin embargo, su aplicación en escenarios de aprendizaje en línea, especialmente en aprendizaje por refuerzo (RL), ha sido limitada. En este trabajo, cerramos esta brecha presentando el Aprendizaje por Refuerzo con Impulso de Gradiente (GBRL), un marco que extiende las ventajas de los GBT al dominio del RL. Utilizando el marco GBRL, implementamos varios algoritmos actor-critic y comparamos su rendimiento con sus contrapartes de NN. Inspirados por las estructuras compartidas en NN, introducimos un enfoque de intercambio de árboles para funciones de política y valor con tasas de aprendizaje distintas, mejorando la eficiencia de aprendizaje a lo largo de millones de interacciones. GBRL logra un rendimiento competitivo en una amplia gama de tareas, destacándose en dominios con características estructuradas o categóricas. Además, presentamos una implementación de alto rendimiento acelerada por GPU que se integra perfectamente con bibliotecas de RL ampliamente utilizadas (disponible en https://github.com/NVlabs/gbrl). GBRL amplía el conjunto de herramientas para los practicantes de RL, demostrando la viabilidad y promesa de los GBT dentro del paradigma de RL, especialmente en dominios caracterizados por características estructuradas o categóricas.

English

Neural networks (NN) achieve remarkable results in various tasks, but lack key characteristics: interpretability, support for categorical features, and lightweight implementations suitable for edge devices. While ongoing efforts aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet these requirements. As a result, GBTs have become the go-to method for supervised learning tasks in many real-world applications and competitions. However, their application in online learning scenarios, notably in reinforcement learning (RL), has been limited. In this work, we bridge this gap by introducing Gradient-Boosting RL (GBRL), a framework that extends the advantages of GBT to the RL domain. Using the GBRL framework, we implement various actor-critic algorithms and compare their performance with their NN counterparts. Inspired by shared backbones in NN we introduce a tree-sharing approach for policy and value functions with distinct learning rates, enhancing learning efficiency over millions of interactions. GBRL achieves competitive performance across a diverse array of tasks, excelling in domains with structured or categorical features. Additionally, we present a high-performance, GPU-accelerated implementation that integrates seamlessly with widely-used RL libraries (available at https://github.com/NVlabs/gbrl). GBRL expands the toolkit for RL practitioners, demonstrating the viability and promise of GBT within the RL paradigm, particularly in domains characterized by structured or categorical features.

Aprendizaje por Refuerzo con Reforzamiento de Gradiente

Gradient Boosting Reinforcement Learning

Resumen

Support