L'apprentissage par renforcement Actor-Critic hors ligne s'adapte aux modèles de grande taille.
Offline Actor-Critic Reinforcement Learning Scales to Large Models
February 8, 2024
Auteurs: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI
Résumé
Nous démontrons que l'apprentissage par renforcement hors ligne de type acteur-critique peut s'adapter à des modèles de grande taille - tels que les transformeurs - et suit des lois d'échelle similaires à celles de l'apprentissage supervisé. Nous constatons que les algorithmes acteur-critique hors ligne peuvent surpasser des références solides basées sur le clonage comportemental supervisé pour l'entraînement multi-tâches sur un grand ensemble de données contenant à la fois des comportements sous-optimaux et experts pour 132 tâches de contrôle continu. Nous introduisons un modèle acteur-critique basé sur Perceiver et clarifions les caractéristiques clés du modèle nécessaires pour faire fonctionner l'apprentissage par renforcement hors ligne avec des modules d'auto-attention et d'attention croisée. Globalement, nous constatons que : i) les algorithmes acteur-critique hors ligne simples constituent un choix naturel pour s'éloigner progressivement du paradigme actuellement dominant du clonage comportemental, et ii) via l'apprentissage par renforcement hors ligne, il est possible d'apprendre des politiques multi-tâches qui maîtrisent simultanément de nombreux domaines, y compris des tâches de robotique réelle, à partir de démonstrations sous-optimales ou de données auto-générées.
English
We show that offline actor-critic reinforcement learning can scale to large
models - such as transformers - and follows similar scaling laws as supervised
learning. We find that offline actor-critic algorithms can outperform strong,
supervised, behavioral cloning baselines for multi-task training on a large
dataset containing both sub-optimal and expert behavior on 132 continuous
control tasks. We introduce a Perceiver-based actor-critic model and elucidate
the key model features needed to make offline RL work with self- and
cross-attention modules. Overall, we find that: i) simple offline actor critic
algorithms are a natural choice for gradually moving away from the currently
predominant paradigm of behavioral cloning, and ii) via offline RL it is
possible to learn multi-task policies that master many domains simultaneously,
including real robotics tasks, from sub-optimal demonstrations or
self-generated data.