Offline Actor-Critic Reinforcement Learning skaliert auf große Modelle.
Offline Actor-Critic Reinforcement Learning Scales to Large Models
February 8, 2024
Autoren: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
cs.AI
Zusammenfassung
Wir zeigen, dass Offline-Actor-Critic-Reinforcement-Learning auf große Modelle – wie beispielsweise Transformer – skaliert werden kann und ähnlichen Skalierungsgesetzen wie das überwachte Lernen folgt. Wir stellen fest, dass Offline-Actor-Critic-Algorithmen starke, überwachte Behavioral-Cloning-Baselines bei der Multi-Task-Ausbildung auf einem großen Datensatz, der sowohl suboptimale als auch Expertenverhalten auf 132 kontinuierlichen Steuerungsaufgaben enthält, übertreffen können. Wir führen ein Perceiver-basiertes Actor-Critic-Modell ein und erläutern die Schlüsselmerkmale des Modells, die erforderlich sind, um Offline-RL mit Selbst- und Kreuz-Attention-Modulen zu ermöglichen. Insgesamt kommen wir zu folgenden Ergebnissen: i) einfache Offline-Actor-Critic-Algorithmen sind eine natürliche Wahl, um sich schrittweise vom derzeit vorherrschenden Paradigma des Behavioral Cloning zu entfernen, und ii) durch Offline-RL ist es möglich, Multi-Task-Policies zu erlernen, die viele Domänen gleichzeitig beherrschen, einschließlich realer Robotikaufgaben, basierend auf suboptimalen Demonstrationen oder selbstgenerierten Daten.
English
We show that offline actor-critic reinforcement learning can scale to large
models - such as transformers - and follows similar scaling laws as supervised
learning. We find that offline actor-critic algorithms can outperform strong,
supervised, behavioral cloning baselines for multi-task training on a large
dataset containing both sub-optimal and expert behavior on 132 continuous
control tasks. We introduce a Perceiver-based actor-critic model and elucidate
the key model features needed to make offline RL work with self- and
cross-attention modules. Overall, we find that: i) simple offline actor critic
algorithms are a natural choice for gradually moving away from the currently
predominant paradigm of behavioral cloning, and ii) via offline RL it is
possible to learn multi-task policies that master many domains simultaneously,
including real robotics tasks, from sub-optimal demonstrations or
self-generated data.