ChatPaper.aiChatPaper

El aprendizaje por refuerzo Actor-Critic fuera de línea escala a modelos grandes.

Offline Actor-Critic Reinforcement Learning Scales to Large Models

February 8, 2024
Autores: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI

Resumen

Demostramos que el aprendizaje por refuerzo actor-crítico offline puede escalar a modelos grandes —como los transformadores— y sigue leyes de escalado similares a las del aprendizaje supervisado. Encontramos que los algoritmos actor-crítico offline pueden superar a líneas de base sólidas de clonación conductual supervisada en el entrenamiento multitarea sobre un gran conjunto de datos que contiene tanto comportamientos subóptimos como expertos en 132 tareas de control continuo. Introducimos un modelo actor-crítico basado en Perceiver y elucidamos las características clave del modelo necesarias para que el aprendizaje por refuerzo offline funcione con módulos de autoatención y atención cruzada. En general, encontramos que: i) los algoritmos actor-crítico offline simples son una elección natural para alejarse gradualmente del paradigma actualmente predominante de clonación conductual, y ii) mediante el aprendizaje por refuerzo offline es posible aprender políticas multitarea que dominan muchos dominios simultáneamente, incluyendo tareas de robótica real, a partir de demostraciones subóptimas o datos autogenerados.
English
We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.
PDF51December 15, 2024