ChatPaper.aiChatPaper

Оффлайн-актор-критическое обучение с подкреплением масштабируется для больших моделей

Offline Actor-Critic Reinforcement Learning Scales to Large Models

February 8, 2024
Авторы: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI

Аннотация

Мы демонстрируем, что обучение с подкреплением методом актор-критик в оффлайн-режиме может масштабироваться до больших моделей, таких как трансформеры, и следует схожим законам масштабирования, как и обучение с учителем. Мы обнаруживаем, что оффлайн-алгоритмы актор-критик могут превосходить сильные базовые модели поведенческого клонирования с учителем при многозадачном обучении на большом наборе данных, содержащем как субоптимальное, так и экспертное поведение, на 132 задачах непрерывного управления. Мы представляем модель актор-критик на основе Perceiver и раскрываем ключевые особенности модели, необходимые для успешной работы оффлайн-обучения с подкреплением с использованием модулей самовнимания и кросс-внимания. В целом, мы приходим к следующим выводам: i) простые оффлайн-алгоритмы актор-критик являются естественным выбором для постепенного отхода от текущей преобладающей парадигмы поведенческого клонирования, и ii) с помощью оффлайн-обучения с подкреплением возможно обучать многозадачные политики, которые одновременно осваивают множество областей, включая задачи реальной робототехники, на основе субоптимальных демонстраций или самостоятельно сгенерированных данных.
English
We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.
PDF51December 15, 2024