К общему методу обучения с подкреплением без модели
Towards General-Purpose Model-Free Reinforcement Learning
January 27, 2025
Авторы: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat
cs.AI
Аннотация
Обучение с подкреплением (RL) обещает рамки для практически универсального решения проблем. Однако на практике алгоритмы RL часто настраиваются под конкретные стандарты, опираясь на тщательно настроенные гиперпараметры и алгоритмические выборы. Недавно мощные методы модельного обучения RL продемонстрировали впечатляющие общие результаты на стандартах, но это сопряжено с увеличением сложности и медленными временами выполнения, что ограничивает их более широкое применение. В данной статье мы пытаемся найти объединяющий модельно-независимый глубокий алгоритм RL, который может решать разнообразные классы областей и настроек задач. Для достижения этой цели мы используем модельные представления, которые приблизительно линеаризуют функцию ценности, используя более плотные целевые задачи, применяемые в модельном обучении RL, и избегая затрат, связанных с планированием или симулированными траекториями. Мы оцениваем наш алгоритм, MR.Q, на различных стандартных стендах RL с единственным набором гиперпараметров и показываем конкурентоспособные результаты по сравнению с базовыми моделями, специфичными для области, и общими, что представляет собой конкретный шаг к созданию универсальных модельно-независимых глубоких алгоритмов RL.
English
Reinforcement learning (RL) promises a framework for near-universal
problem-solving. In practice however, RL algorithms are often tailored to
specific benchmarks, relying on carefully tuned hyperparameters and algorithmic
choices. Recently, powerful model-based RL methods have shown impressive
general results across benchmarks but come at the cost of increased complexity
and slow run times, limiting their broader applicability. In this paper, we
attempt to find a unifying model-free deep RL algorithm that can address a
diverse class of domains and problem settings. To achieve this, we leverage
model-based representations that approximately linearize the value function,
taking advantage of the denser task objectives used by model-based RL while
avoiding the costs associated with planning or simulated trajectories. We
evaluate our algorithm, MR.Q, on a variety of common RL benchmarks with a
single set of hyperparameters and show a competitive performance against
domain-specific and general baselines, providing a concrete step towards
building general-purpose model-free deep RL algorithms.Summary
AI-Generated Summary