Offline Actor-Critic Reinforcement Learning schaalt naar grote modellen

Samenvatting

We tonen aan dat offline actor-critic reinforcement learning kan schalen naar grote modellen - zoals transformers - en vergelijkbare schaalwetten volgt als supervised learning. We ontdekken dat offline actor-critic algoritmen sterke, supervised, behavioral cloning-baselines kunnen overtreffen voor multi-task training op een grote dataset die zowel suboptimale als expertgedrag bevat voor 132 continue controle-taken. We introduceren een Perceiver-gebaseerd actor-critic model en verduidelijken de belangrijkste modelkenmerken die nodig zijn om offline RL te laten werken met self- en cross-attention modules. Over het algemeen concluderen we dat: i) eenvoudige offline actor-critic algoritmen een natuurlijke keuze zijn om geleidelijk af te stappen van het huidige, overheersende paradigma van behavioral cloning, en ii) het via offline RL mogelijk is om multi-task beleidsregels te leren die veel domeinen tegelijk beheersen, inclusief echte robotica-taken, vanuit suboptimale demonstraties of zelf gegenereerde data.

English

We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.

Offline Actor-Critic Reinforcement Learning schaalt naar grote modellen

Offline Actor-Critic Reinforcement Learning Scales to Large Models

Samenvatting

Support