Eureka: Progettazione di Ricompense a Livello Umano tramite Codifica di Modelli Linguistici di Grande Scala
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
Autori: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
Abstract
I Large Language Model (LLM) si sono distinti come pianificatori semantici di alto livello per compiti di decisione sequenziale. Tuttavia, sfruttarli per apprendere compiti complessi di manipolazione di basso livello, come il giro della penna con destrezza, rimane un problema aperto. Colmiamo questa lacuna fondamentale e presentiamo Eureka, un algoritmo di progettazione di ricompense di livello umano alimentato da LLM. Eureka sfrutta le straordinarie capacità di generazione zero-shot, scrittura di codice e miglioramento in-context degli LLM all'avanguardia, come GPT-4, per eseguire un'ottimizzazione evolutiva sul codice delle ricompense. Le ricompense risultanti possono quindi essere utilizzate per acquisire abilità complesse tramite apprendimento per rinforzo. Senza alcun prompt specifico per il compito o modelli predefiniti di ricompensa, Eureka genera funzioni di ricompensa che superano quelle progettate da esperti umani. In un'ampia suite di 29 ambienti RL open-source che includono 10 morfologie robotiche distinte, Eureka supera gli esperti umani nell'83% dei compiti, portando a un miglioramento normalizzato medio del 52%. La generalità di Eureka consente anche un nuovo approccio di apprendimento in-context senza gradienti per l'apprendimento per rinforzo da feedback umano (RLHF), incorporando facilmente input umani per migliorare la qualità e la sicurezza delle ricompense generate senza aggiornare il modello. Infine, utilizzando le ricompense di Eureka in un contesto di apprendimento curriculare, dimostriamo per la prima volta una Shadow Hand simulata in grado di eseguire trucchi con la penna, manipolando abilmente una penna in cerchi ad alta velocità.
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.