Eureka: Diseño de Recompensas a Nivel Humano mediante la Codificación de Modelos de Lenguaje a Gran Escala
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
Autores: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado como planificadores semánticos de alto nivel para tareas de toma de decisiones secuenciales. Sin embargo, aprovecharlos para aprender tareas complejas de manipulación de bajo nivel, como hacer girar un bolígrafo con destreza, sigue siendo un problema abierto. Cerramos esta brecha fundamental y presentamos Eureka, un algoritmo de diseño de recompensas a nivel humano impulsado por LLMs. Eureka aprovecha las capacidades notables de generación en cero-shot, escritura de código y mejora en contexto de los LLMs más avanzados, como GPT-4, para realizar optimización evolutiva sobre el código de recompensas. Las recompensas resultantes pueden luego utilizarse para adquirir habilidades complejas mediante aprendizaje por refuerzo. Sin indicaciones específicas de tareas ni plantillas de recompensas predefinidas, Eureka genera funciones de recompensa que superan a las diseñadas por expertos humanos. En un conjunto diverso de 29 entornos de aprendizaje por refuerzo de código abierto que incluyen 10 morfologías de robots distintas, Eureka supera a los expertos humanos en el 83% de las tareas, logrando una mejora normalizada promedio del 52%. La generalidad de Eureka también permite un nuevo enfoque de aprendizaje en contexto sin gradientes para el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés), incorporando fácilmente entradas humanas para mejorar la calidad y la seguridad de las recompensas generadas sin necesidad de actualizar el modelo. Finalmente, utilizando recompensas de Eureka en un entorno de aprendizaje curricular, demostramos por primera vez una mano simulada Shadow Hand capaz de realizar trucos de giro de bolígrafo, manipulando hábilmente un bolígrafo en círculos a gran velocidad.
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.