L'apprendimento per rinforzo Offline Actor-Critic si adatta a modelli di grandi dimensioni

Abstract

Dimostriamo che il reinforcement learning offline di tipo actor-critic può scalare a modelli di grandi dimensioni - come i transformer - e segue leggi di scala simili a quelle dell'apprendimento supervisionato. Troviamo che gli algoritmi actor-critic offline possono superare solide baseline di clonazione comportamentale supervisionata per l'addestramento multi-task su un ampio dataset contenente sia comportamenti sub-ottimali che esperti, su 132 task di controllo continuo. Introduciamo un modello actor-critic basato su Perceiver e chiariamo le caratteristiche chiave del modello necessarie per far funzionare il RL offline con moduli di self- e cross-attention. In sintesi, scopriamo che: i) semplici algoritmi actor-critic offline rappresentano una scelta naturale per allontanarsi gradualmente dall'attuale paradigma predominante della clonazione comportamentale, e ii) attraverso il RL offline è possibile apprendere politiche multi-task che padroneggiano simultaneamente molti domini, inclusi task di robotica reale, a partire da dimostrazioni sub-ottimali o dati auto-generati.

English

We show that offline actor-critic reinforcement learning can scale to large models - such as transformers - and follows similar scaling laws as supervised learning. We find that offline actor-critic algorithms can outperform strong, supervised, behavioral cloning baselines for multi-task training on a large dataset containing both sub-optimal and expert behavior on 132 continuous control tasks. We introduce a Perceiver-based actor-critic model and elucidate the key model features needed to make offline RL work with self- and cross-attention modules. Overall, we find that: i) simple offline actor critic algorithms are a natural choice for gradually moving away from the currently predominant paradigm of behavioral cloning, and ii) via offline RL it is possible to learn multi-task policies that master many domains simultaneously, including real robotics tasks, from sub-optimal demonstrations or self-generated data.

L'apprendimento per rinforzo Offline Actor-Critic si adatta a modelli di grandi dimensioni

Offline Actor-Critic Reinforcement Learning Scales to Large Models

Abstract

Support