Offline Actor-Critic Reinforcement Learning schaalt naar grote modellen
Offline Actor-Critic Reinforcement Learning Scales to Large Models
February 8, 2024
Auteurs: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI
Samenvatting
We tonen aan dat offline actor-critic reinforcement learning kan schalen naar grote modellen - zoals transformers - en vergelijkbare schaalwetten volgt als supervised learning. We ontdekken dat offline actor-critic algoritmen sterke, supervised, behavioral cloning-baselines kunnen overtreffen voor multi-task training op een grote dataset die zowel suboptimale als expertgedrag bevat voor 132 continue controle-taken. We introduceren een Perceiver-gebaseerd actor-critic model en verduidelijken de belangrijkste modelkenmerken die nodig zijn om offline RL te laten werken met self- en cross-attention modules. Over het algemeen concluderen we dat: i) eenvoudige offline actor-critic algoritmen een natuurlijke keuze zijn om geleidelijk af te stappen van het huidige, overheersende paradigma van behavioral cloning, en ii) het via offline RL mogelijk is om multi-task beleidsregels te leren die veel domeinen tegelijk beheersen, inclusief echte robotica-taken, vanuit suboptimale demonstraties of zelf gegenereerde data.
English
We show that offline actor-critic reinforcement learning can scale to large
models - such as transformers - and follows similar scaling laws as supervised
learning. We find that offline actor-critic algorithms can outperform strong,
supervised, behavioral cloning baselines for multi-task training on a large
dataset containing both sub-optimal and expert behavior on 132 continuous
control tasks. We introduce a Perceiver-based actor-critic model and elucidate
the key model features needed to make offline RL work with self- and
cross-attention modules. Overall, we find that: i) simple offline actor critic
algorithms are a natural choice for gradually moving away from the currently
predominant paradigm of behavioral cloning, and ii) via offline RL it is
possible to learn multi-task policies that master many domains simultaneously,
including real robotics tasks, from sub-optimal demonstrations or
self-generated data.