Vers un apprentissage par renforcement sans modèle polyvalent
Towards General-Purpose Model-Free Reinforcement Learning
January 27, 2025
Auteurs: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI
Résumé
L'apprentissage par renforcement (RL) promet un cadre pour la résolution de problèmes quasi universelle. En pratique cependant, les algorithmes de RL sont souvent adaptés à des benchmarks spécifiques, reposant sur des hyperparamètres soigneusement réglés et des choix algorithmiques. Récemment, de puissantes méthodes de RL basées sur des modèles ont montré des résultats généraux impressionnants à travers les benchmarks, mais au prix d'une complexité accrue et de temps d'exécution lents, limitant leur applicabilité plus large. Dans cet article, nous tentons de trouver un algorithme unificateur de RL profond sans modèle qui puisse aborder une classe diversifiée de domaines et de configurations de problèmes. Pour y parvenir, nous exploitons des représentations basées sur des modèles qui linéarisent approximativement la fonction de valeur, tirant parti des objectifs de tâche plus denses utilisés par le RL basé sur des modèles tout en évitant les coûts associés à la planification ou aux trajectoires simulées. Nous évaluons notre algorithme, MR.Q, sur une variété de benchmarks communs de RL avec un seul ensemble d'hyperparamètres et montrons des performances compétitives par rapport aux baselines spécifiques au domaine et générales, fournissant ainsi une avancée concrète vers la construction d'algorithmes de RL profond sans modèle polyvalents.
English
Reinforcement learning (RL) promises a framework for near-universal
problem-solving. In practice however, RL algorithms are often tailored to
specific benchmarks, relying on carefully tuned hyperparameters and algorithmic
choices. Recently, powerful model-based RL methods have shown impressive
general results across benchmarks but come at the cost of increased complexity
and slow run times, limiting their broader applicability. In this paper, we
attempt to find a unifying model-free deep RL algorithm that can address a
diverse class of domains and problem settings. To achieve this, we leverage
model-based representations that approximately linearize the value function,
taking advantage of the denser task objectives used by model-based RL while
avoiding the costs associated with planning or simulated trajectories. We
evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a
single set of hyperparameters and show a competitive performance against
domain-specific and general baselines, providing a concrete step towards
building general-purpose model-free deep RL algorithms.Summary
AI-Generated Summary