Eureka: Menselijk Niveau Beloningsontwerp via het Programmeren van Grote Taalmodellen
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
Auteurs: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
Samenvatting
Large Language Models (LLM's) hebben uitstekend gepresteerd als hoogwaardige semantische planners voor sequentiële besluitvormingstaken. Het benutten ervan om complexe low-level manipulatietaken te leren, zoals behendig pennen draaien, blijft echter een open probleem. Wij overbruggen deze fundamentele kloof en presenteren Eureka, een algoritme voor het ontwerpen van menswaardige beloningen, aangedreven door LLM's. Eureka maakt gebruik van de opmerkelijke zero-shot generatie, code-schrijf- en in-context verbeteringsmogelijkheden van state-of-the-art LLM's, zoals GPT-4, om evolutionaire optimalisatie uit te voeren over beloningscode. De resulterende beloningen kunnen vervolgens worden gebruikt om complexe vaardigheden te verwerven via reinforcement learning. Zonder taakspecifieke prompting of vooraf gedefinieerde beloningssjablonen genereert Eureka beloningsfuncties die beter presteren dan door menselijke experts ontworpen beloningen. In een diverse reeks van 29 open-source RL-omgevingen die 10 verschillende robotmorfologieën omvatten, presteert Eureka beter dan menselijke experts bij 83% van de taken, wat leidt tot een gemiddelde genormaliseerde verbetering van 52%. De algemeenheid van Eureka maakt ook een nieuwe gradient-free in-context leerbenadering mogelijk voor reinforcement learning from human feedback (RLHF), waarbij menselijke input gemakkelijk wordt geïntegreerd om de kwaliteit en veiligheid van de gegenereerde beloningen te verbeteren zonder model-updates. Ten slotte demonstreren we, door Eureka-beloningen te gebruiken in een curriculum leeromgeving, voor het eerst een gesimuleerde Shadow Hand die in staat is pennen draaitrucs uit te voeren, waarbij een pen behendig in cirkels wordt gemanipuleerd met hoge snelheid.
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.