ChatPaper.aiChatPaper

Verso l'apprendimento per rinforzo senza modello di tipo generale

Towards General-Purpose Model-Free Reinforcement Learning

January 27, 2025
Autori: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI

Abstract

Il Reinforcement Learning (RL) promette un quadro per la risoluzione quasi universale dei problemi. In pratica, però, gli algoritmi di RL sono spesso adattati a benchmark specifici, basandosi su iperparametri e scelte algoritmiche attentamente regolati. Recentemente, potenti metodi di RL basati su modelli hanno mostrato risultati generali impressionanti attraverso benchmark, ma a discapito di un aumento della complessità e di tempi di esecuzione lenti, limitandone la più ampia applicabilità. In questo articolo, cerchiamo di trovare un algoritmo unificante di RL profondo senza modello che possa affrontare una vasta classe di domini e impostazioni di problemi. Per raggiungere questo obiettivo, sfruttiamo rappresentazioni basate su modelli che approssimano linearmente la funzione di valore, approfittando degli obiettivi di attività più densi utilizzati dal RL basato su modelli evitando i costi associati alla pianificazione o alle traiettorie simulate. Valutiamo il nostro algoritmo, MR.Q, su una varietà di comuni benchmark di RL con un singolo set di iperparametri e mostriamo una prestazione competitiva rispetto a basi di confronto specifiche del dominio e generali, offrendo un passo concreto verso la costruzione di algoritmi di RL profondo senza modello di uso generale.
English
Reinforcement learning (RL) promises a framework for near-universal problem-solving. In practice however, RL algorithms are often tailored to specific benchmarks, relying on carefully tuned hyperparameters and algorithmic choices. Recently, powerful model-based RL methods have shown impressive general results across benchmarks but come at the cost of increased complexity and slow run times, limiting their broader applicability. In this paper, we attempt to find a unifying model-free deep RL algorithm that can address a diverse class of domains and problem settings. To achieve this, we leverage model-based representations that approximately linearize the value function, taking advantage of the denser task objectives used by model-based RL while avoiding the costs associated with planning or simulated trajectories. We evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a single set of hyperparameters and show a competitive performance against domain-specific and general baselines, providing a concrete step towards building general-purpose model-free deep RL algorithms.

Summary

AI-Generated Summary

PDF303January 28, 2025