ChatPaper.aiChatPaper

Offline Actor-Critic Reinforcement Learning schaalt naar grote modellen

Offline Actor-Critic Reinforcement Learning Scales to Large Models

February 8, 2024
Auteurs: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI

Samenvatting

We tonen aan dat offline actor-critic reinforcement learning kan schalen naar grote modellen - zoals transformers - en vergelijkbare schaalwetten volgt als supervised learning. We ontdekken dat offline actor-critic algoritmen sterke, supervised, behavioral cloning-baselines kunnen overtreffen voor multi-task training op een grote dataset die zowel suboptimale als expertgedrag bevat voor 132 continue controle-taken. We introduceren een Perceiver-gebaseerd actor-critic model en verduidelijken de belangrijkste modelkenmerken die nodig zijn om offline RL te laten werken met self- en cross-attention modules. Over het algemeen concluderen we dat: i) eenvoudige offline actor-critic algoritmen een natuurlijke keuze zijn om geleidelijk af te stappen van het huidige, overheersende paradigma van behavioral cloning, en ii) het via offline RL mogelijk is om multi-task beleidsregels te leren die veel domeinen tegelijk beheersen, inclusief echte robotica-taken, vanuit suboptimale demonstraties of zelf gegenereerde data.
English
We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.
PDF51December 15, 2024