Hacia el Aprendizaje por Refuerzo sin Modelo de Propósito General

Resumen

El aprendizaje por refuerzo (RL) promete un marco para la resolución de problemas casi universal. Sin embargo, en la práctica, los algoritmos de RL suelen adaptarse a benchmarks específicos, dependiendo de hiperparámetros cuidadosamente ajustados y elecciones algorítmicas. Recientemente, potentes métodos de RL basados en modelos han mostrado resultados generales impresionantes en benchmarks, pero a costa de una mayor complejidad y tiempos de ejecución lentos, limitando su aplicabilidad más amplia. En este documento, intentamos encontrar un algoritmo unificador de RL profundo sin modelo que pueda abordar una clase diversa de dominios y configuraciones de problemas. Para lograr esto, aprovechamos representaciones basadas en modelos que linealizan aproximadamente la función de valor, aprovechando los objetivos de tarea más densos utilizados por el RL basado en modelos y evitando los costos asociados con la planificación o trayectorias simuladas. Evaluamos nuestro algoritmo, MR.Q, en una variedad de benchmarks comunes de RL con un solo conjunto de hiperparámetros y mostramos un rendimiento competitivo frente a baselines generales y específicos del dominio, lo que representa un paso concreto hacia la construcción de algoritmos de RL profundo sin modelo de propósito general.

English

Reinforcement learning (RL) promises a framework for near-universal problem-solving. In practice however, RL algorithms are often tailored to specific benchmarks, relying on carefully tuned hyperparameters and algorithmic choices. Recently, powerful model-based RL methods have shown impressive general results across benchmarks but come at the cost of increased complexity and slow run times, limiting their broader applicability. In this paper, we attempt to find a unifying model-free deep RL algorithm that can address a diverse class of domains and problem settings. To achieve this, we leverage model-based representations that approximately linearize the value function, taking advantage of the denser task objectives used by model-based RL while avoiding the costs associated with planning or simulated trajectories. We evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a single set of hyperparameters and show a competitive performance against domain-specific and general baselines, providing a concrete step towards building general-purpose model-free deep RL algorithms.

Hacia el Aprendizaje por Refuerzo sin Modelo de Propósito General

Towards General-Purpose Model-Free Reinforcement Learning

Resumen

Support