O Aprendizado por Reforço Offline com Actor-Critic Escalona para Modelos Grandes
Offline Actor-Critic Reinforcement Learning Scales to Large Models
February 8, 2024
Autores: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI
Resumo
Demonstramos que o aprendizado por reforço offline do tipo actor-critic pode ser escalonado para modelos grandes - como transformers - e segue leis de escalonamento semelhantes às do aprendizado supervisionado. Descobrimos que algoritmos offline actor-critic podem superar baselines robustos de clonagem comportamental supervisionada para treinamento multitarefa em um grande conjunto de dados que contém comportamentos tanto subótimos quanto especialistas em 132 tarefas de controle contínuo. Introduzimos um modelo actor-critic baseado em Perceiver e elucidamos as principais características do modelo necessárias para fazer o RL offline funcionar com módulos de auto-atenção e atenção cruzada. No geral, concluímos que: i) algoritmos simples de actor-critic offline são uma escolha natural para gradualmente se afastar do paradigma atualmente predominante de clonagem comportamental, e ii) por meio do RL offline, é possível aprender políticas multitarefa que dominam muitos domínios simultaneamente, incluindo tarefas de robótica real, a partir de demonstrações subótimas ou dados autogerados.
English
We show that offline actor-critic reinforcement learning can scale to large
models - such as transformers - and follows similar scaling laws as supervised
learning. We find that offline actor-critic algorithms can outperform strong,
supervised, behavioral cloning baselines for multi-task training on a large
dataset containing both sub-optimal and expert behavior on 132 continuous
control tasks. We introduce a Perceiver-based actor-critic model and elucidate
the key model features needed to make offline RL work with self- and
cross-attention modules. Overall, we find that: i) simple offline actor critic
algorithms are a natural choice for gradually moving away from the currently
predominant paradigm of behavioral cloning, and ii) via offline RL it is
possible to learn multi-task policies that master many domains simultaneously,
including real robotics tasks, from sub-optimal demonstrations or
self-generated data.