Eureka: Projeto de Recompensa em Nível Humano por meio de Codificação com Modelos de Linguagem de Grande Escala

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm se destacado como planejadores semânticos de alto nível para tarefas de tomada de decisão sequencial. No entanto, utilizá-los para aprender tarefas complexas de manipulação de baixo nível, como girar uma caneta com destreza, continua sendo um problema em aberto. Nós preenchemos essa lacuna fundamental e apresentamos o Eureka, um algoritmo de design de recompensa de nível humano impulsionado por LLMs. O Eureka explora as notáveis capacidades de geração zero-shot, escrita de código e melhoria em contexto dos LLMs de última geração, como o GPT-4, para realizar otimização evolutiva sobre o código de recompensa. As recompensas resultantes podem então ser usadas para adquirir habilidades complexas por meio de aprendizado por reforço. Sem nenhum prompt específico para a tarefa ou modelos predefinidos de recompensa, o Eureka gera funções de recompensa que superam as recompensas projetadas por especialistas humanos. Em um conjunto diversificado de 29 ambientes de RL de código aberto que incluem 10 morfologias distintas de robôs, o Eureka supera especialistas humanos em 83% das tarefas, resultando em uma melhoria normalizada média de 52%. A generalidade do Eureka também permite uma nova abordagem de aprendizado em contexto sem gradientes para o aprendizado por reforço a partir de feedback humano (RLHF), incorporando prontamente entradas humanas para melhorar a qualidade e a segurança das recompensas geradas sem atualização do modelo. Por fim, usando recompensas do Eureka em um cenário de aprendizado curricular, demonstramos pela primeira vez uma Shadow Hand simulada capaz de realizar truques de girar uma caneta, manipulando habilmente uma caneta em círculos em alta velocidade.

English

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.

Eureka: Projeto de Recompensa em Nível Humano por meio de Codificação com Modelos de Linguagem de Grande Escala

Eureka: Human-Level Reward Design via Coding Large Language Models

Resumo

Support