Hacia el Aprendizaje por Refuerzo sin Modelo de Propósito General
Towards General-Purpose Model-Free Reinforcement Learning
January 27, 2025
Autores: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI
Resumen
El aprendizaje por refuerzo (RL) promete un marco para la resolución de problemas casi universal. Sin embargo, en la práctica, los algoritmos de RL suelen adaptarse a benchmarks específicos, dependiendo de hiperparámetros cuidadosamente ajustados y elecciones algorítmicas. Recientemente, potentes métodos de RL basados en modelos han mostrado resultados generales impresionantes en benchmarks, pero a costa de una mayor complejidad y tiempos de ejecución lentos, limitando su aplicabilidad más amplia. En este documento, intentamos encontrar un algoritmo unificador de RL profundo sin modelo que pueda abordar una clase diversa de dominios y configuraciones de problemas. Para lograr esto, aprovechamos representaciones basadas en modelos que linealizan aproximadamente la función de valor, aprovechando los objetivos de tarea más densos utilizados por el RL basado en modelos y evitando los costos asociados con la planificación o trayectorias simuladas. Evaluamos nuestro algoritmo, MR.Q, en una variedad de benchmarks comunes de RL con un solo conjunto de hiperparámetros y mostramos un rendimiento competitivo frente a baselines generales y específicos del dominio, lo que representa un paso concreto hacia la construcción de algoritmos de RL profundo sin modelo de propósito general.
English
Reinforcement learning (RL) promises a framework for near-universal
problem-solving. In practice however, RL algorithms are often tailored to
specific benchmarks, relying on carefully tuned hyperparameters and algorithmic
choices. Recently, powerful model-based RL methods have shown impressive
general results across benchmarks but come at the cost of increased complexity
and slow run times, limiting their broader applicability. In this paper, we
attempt to find a unifying model-free deep RL algorithm that can address a
diverse class of domains and problem settings. To achieve this, we leverage
model-based representations that approximately linearize the value function,
taking advantage of the denser task objectives used by model-based RL while
avoiding the costs associated with planning or simulated trajectories. We
evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a
single set of hyperparameters and show a competitive performance against
domain-specific and general baselines, providing a concrete step towards
building general-purpose model-free deep RL algorithms.Summary
AI-Generated Summary