Eureka : Conception de récompenses de niveau humain via le codage de grands modèles de langage
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
Auteurs: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont excellé en tant que planificateurs sémantiques de haut niveau pour les tâches de prise de décision séquentielle. Cependant, les exploiter pour apprendre des tâches de manipulation complexes de bas niveau, comme le fait de faire tourner un stylo avec dextérité, reste un problème ouvert. Nous comblons cette lacune fondamentale et présentons Eureka, un algorithme de conception de récompense de niveau humain alimenté par les LLMs. Eureka exploite les capacités remarquables de génération en zero-shot, d'écriture de code et d'amélioration en contexte des LLMs de pointe, tels que GPT-4, pour effectuer une optimisation évolutive sur le code de récompense. Les récompenses résultantes peuvent ensuite être utilisées pour acquérir des compétences complexes via l'apprentissage par renforcement. Sans aucun incitatif spécifique à la tâche ou modèle de récompense prédéfini, Eureka génère des fonctions de récompense qui surpassent celles conçues par des experts humains. Dans un ensemble diversifié de 29 environnements d'apprentissage par renforcement open-source incluant 10 morphologies robotiques distinctes, Eureka surpasse les experts humains dans 83% des tâches, conduisant à une amélioration normalisée moyenne de 52%. La généralité d'Eureka permet également une nouvelle approche d'apprentissage en contexte sans gradient pour l'apprentissage par renforcement à partir de retours humains (RLHF), incorporant facilement les entrées humaines pour améliorer la qualité et la sécurité des récompenses générées sans mise à jour du modèle. Enfin, en utilisant les récompenses d'Eureka dans un cadre d'apprentissage curriculaire, nous démontrons pour la première fois une main Shadow simulée capable d'exécuter des tours de stylo, manipulant habilement un stylo en cercles à grande vitesse.
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.