Deja de Regresar: Entrenamiento de Funciones de Valor mediante Clasificación para Aprendizaje por Refuerzo Profundo Escalable

Resumen

Las funciones de valor son un componente central del aprendizaje por refuerzo profundo (RL, por sus siglas en inglés). Estas funciones, parametrizadas por redes neuronales, se entrenan utilizando un objetivo de regresión de error cuadrático medio para igualar valores objetivo obtenidos mediante bootstrapping. Sin embargo, escalar métodos de RL basados en valor que utilizan regresión en redes grandes, como Transformers de alta capacidad, ha resultado ser un desafío. Esta dificultad contrasta marcadamente con el aprendizaje supervisado: al aprovechar una pérdida de clasificación de entropía cruzada, los métodos supervisados han escalado de manera confiable a redes masivas. Observando esta discrepancia, en este artículo investigamos si la escalabilidad del RL profundo también puede mejorarse simplemente utilizando clasificación en lugar de regresión para entrenar funciones de valor. Demostramos que las funciones de valor entrenadas con entropía cruzada categórica mejoran significativamente el rendimiento y la escalabilidad en una variedad de dominios. Estos incluyen: RL de tarea única en juegos de Atari 2600 con SoftMoEs, RL multitarea en Atari con ResNets a gran escala, manipulación robótica con Q-transformers, jugar ajedrez sin búsqueda y una tarea de lenguaje con el juego Wordle utilizando Transformers de alta capacidad, logrando resultados de vanguardia en estos dominios. A través de un análisis cuidadoso, mostramos que los beneficios de la entropía cruzada categórica provienen principalmente de su capacidad para mitigar problemas inherentes al RL basado en valor, como objetivos ruidosos y no estacionariedad. En general, argumentamos que un simple cambio hacia el entrenamiento de funciones de valor con entropía cruzada categórica puede generar mejoras sustanciales en la escalabilidad del RL profundo con poco o ningún costo adicional.

English

Value functions are a central component of deep reinforcement learning (RL). These functions, parameterized by neural networks, are trained using a mean squared error regression objective to match bootstrapped target values. However, scaling value-based RL methods that use regression to large networks, such as high-capacity Transformers, has proven challenging. This difficulty is in stark contrast to supervised learning: by leveraging a cross-entropy classification loss, supervised methods have scaled reliably to massive networks. Observing this discrepancy, in this paper, we investigate whether the scalability of deep RL can also be improved simply by using classification in place of regression for training value functions. We demonstrate that value functions trained with categorical cross-entropy significantly improves performance and scalability in a variety of domains. These include: single-task RL on Atari 2600 games with SoftMoEs, multi-task RL on Atari with large-scale ResNets, robotic manipulation with Q-transformers, playing Chess without search, and a language-agent Wordle task with high-capacity Transformers, achieving state-of-the-art results on these domains. Through careful analysis, we show that the benefits of categorical cross-entropy primarily stem from its ability to mitigate issues inherent to value-based RL, such as noisy targets and non-stationarity. Overall, we argue that a simple shift to training value functions with categorical cross-entropy can yield substantial improvements in the scalability of deep RL at little-to-no cost.

Deja de Regresar: Entrenamiento de Funciones de Valor mediante Clasificación para Aprendizaje por Refuerzo Profundo Escalable

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Resumen

Support