ChatPaper.aiChatPaper

L'apprendimento per rinforzo Offline Actor-Critic si adatta a modelli di grandi dimensioni

Offline Actor-Critic Reinforcement Learning Scales to Large Models

February 8, 2024
Autori: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI

Abstract

Dimostriamo che il reinforcement learning offline di tipo actor-critic può scalare a modelli di grandi dimensioni - come i transformer - e segue leggi di scala simili a quelle dell'apprendimento supervisionato. Troviamo che gli algoritmi actor-critic offline possono superare solide baseline di clonazione comportamentale supervisionata per l'addestramento multi-task su un ampio dataset contenente sia comportamenti sub-ottimali che esperti, su 132 task di controllo continuo. Introduciamo un modello actor-critic basato su Perceiver e chiariamo le caratteristiche chiave del modello necessarie per far funzionare il RL offline con moduli di self- e cross-attention. In sintesi, scopriamo che: i) semplici algoritmi actor-critic offline rappresentano una scelta naturale per allontanarsi gradualmente dall'attuale paradigma predominante della clonazione comportamentale, e ii) attraverso il RL offline è possibile apprendere politiche multi-task che padroneggiano simultaneamente molti domini, inclusi task di robotica reale, a partire da dimostrazioni sub-ottimali o dati auto-generati.
English
We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.
PDF51December 15, 2024