Eureka: Projeto de Recompensa em Nível Humano por meio de Codificação com Modelos de Linguagem de Grande Escala
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
Autores: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm se destacado como planejadores semânticos de alto nível para tarefas de tomada de decisão sequencial. No entanto, utilizá-los para aprender tarefas complexas de manipulação de baixo nível, como girar uma caneta com destreza, continua sendo um problema em aberto. Nós preenchemos essa lacuna fundamental e apresentamos o Eureka, um algoritmo de design de recompensa de nível humano impulsionado por LLMs. O Eureka explora as notáveis capacidades de geração zero-shot, escrita de código e melhoria em contexto dos LLMs de última geração, como o GPT-4, para realizar otimização evolutiva sobre o código de recompensa. As recompensas resultantes podem então ser usadas para adquirir habilidades complexas por meio de aprendizado por reforço. Sem nenhum prompt específico para a tarefa ou modelos predefinidos de recompensa, o Eureka gera funções de recompensa que superam as recompensas projetadas por especialistas humanos. Em um conjunto diversificado de 29 ambientes de RL de código aberto que incluem 10 morfologias distintas de robôs, o Eureka supera especialistas humanos em 83% das tarefas, resultando em uma melhoria normalizada média de 52%. A generalidade do Eureka também permite uma nova abordagem de aprendizado em contexto sem gradientes para o aprendizado por reforço a partir de feedback humano (RLHF), incorporando prontamente entradas humanas para melhorar a qualidade e a segurança das recompensas geradas sem atualização do modelo. Por fim, usando recompensas do Eureka em um cenário de aprendizado curricular, demonstramos pela primeira vez uma Shadow Hand simulada capaz de realizar truques de girar uma caneta, manipulando habilmente uma caneta em círculos em alta velocidade.
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.