Rumo ao Aprendizado por Reforço Livre de Modelo de Uso Geral
Towards General-Purpose Model-Free Reinforcement Learning
January 27, 2025
Autores: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI
Resumo
A aprendizagem por reforço (RL) promete um quadro para a resolução de problemas quase universal. Na prática, no entanto, os algoritmos de RL são frequentemente adaptados a benchmarks específicos, dependendo de hiperparâmetros cuidadosamente ajustados e escolhas algorítmicas. Recentemente, poderosos métodos de RL baseados em modelos têm mostrado resultados gerais impressionantes em benchmarks, mas isso vem com o custo de uma complexidade aumentada e tempos de execução lentos, limitando sua aplicabilidade mais ampla. Neste artigo, tentamos encontrar um algoritmo unificador de RL profundo sem modelo que possa lidar com uma classe diversificada de domínios e configurações de problemas. Para alcançar isso, aproveitamos representações baseadas em modelos que aproximadamente linearizam a função de valor, tirando proveito dos objetivos de tarefa mais densos usados pelo RL baseado em modelos, enquanto evitamos os custos associados ao planejamento ou trajetórias simuladas. Avaliamos nosso algoritmo, MR.Q, em uma variedade de benchmarks comuns de RL com um único conjunto de hiperparâmetros e mostramos um desempenho competitivo em comparação com baselines específicos de domínio e gerais, fornecendo um passo concreto em direção à construção de algoritmos gerais de RL profundo sem modelo.
English
Reinforcement learning (RL) promises a framework for near-universal
problem-solving. In practice however, RL algorithms are often tailored to
specific benchmarks, relying on carefully tuned hyperparameters and algorithmic
choices. Recently, powerful model-based RL methods have shown impressive
general results across benchmarks but come at the cost of increased complexity
and slow run times, limiting their broader applicability. In this paper, we
attempt to find a unifying model-free deep RL algorithm that can address a
diverse class of domains and problem settings. To achieve this, we leverage
model-based representations that approximately linearize the value function,
taking advantage of the denser task objectives used by model-based RL while
avoiding the costs associated with planning or simulated trajectories. We
evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a
single set of hyperparameters and show a competitive performance against
domain-specific and general baselines, providing a concrete step towards
building general-purpose model-free deep RL algorithms.Summary
AI-Generated Summary