Eureka: Создание наград на уровне человека с помощью программирования крупных языковых моделей
Eureka: Human-Level Reward Design via Coding Large Language Models
October 19, 2023
Авторы: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI
Аннотация
Крупные языковые модели (LLMs) преуспели в роли высокоуровневых семантических планировщиков для задач последовательного принятия решений. Однако их использование для обучения сложным низкоуровневым манипуляционным задачам, таким как ловкое вращение ручки, остается открытой проблемой. Мы устраняем этот фундаментальный разрыв и представляем Eureka — алгоритм проектирования вознаграждений уровня человека, основанный на LLMs. Eureka использует впечатляющие возможности современных LLMs, таких как GPT-4, в области генерации с нулевым обучением, написания кода и улучшения в контексте для выполнения эволюционной оптимизации кода вознаграждений. Полученные вознаграждения затем могут быть использованы для освоения сложных навыков с помощью обучения с подкреплением. Без каких-либо специфичных для задачи подсказок или предопределенных шаблонов вознаграждений, Eureka генерирует функции вознаграждения, которые превосходят вознаграждения, разработанные экспертами-людьми. В наборе из 29 открытых сред для обучения с подкреплением, включающих 10 различных морфологий роботов, Eureka превосходит экспертов-людей в 83% задач, что приводит к среднему нормализованному улучшению на 52%. Универсальность Eureka также позволяет реализовать новый градиентный подход к обучению с подкреплением на основе человеческой обратной связи (RLHF), легко интегрируя человеческие данные для повышения качества и безопасности генерируемых вознаграждений без обновления модели. Наконец, используя вознаграждения Eureka в рамках обучения по учебному плану, мы впервые демонстрируем, как смоделированная рука Shadow Hand способна выполнять трюки с вращением ручки, ловко манипулируя ею по кругу на высокой скорости.
English
Large Language Models (LLMs) have excelled as high-level semantic planners
for sequential decision-making tasks. However, harnessing them to learn complex
low-level manipulation tasks, such as dexterous pen spinning, remains an open
problem. We bridge this fundamental gap and present Eureka, a human-level
reward design algorithm powered by LLMs. Eureka exploits the remarkable
zero-shot generation, code-writing, and in-context improvement capabilities of
state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over
reward code. The resulting rewards can then be used to acquire complex skills
via reinforcement learning. Without any task-specific prompting or pre-defined
reward templates, Eureka generates reward functions that outperform expert
human-engineered rewards. In a diverse suite of 29 open-source RL environments
that include 10 distinct robot morphologies, Eureka outperforms human experts
on 83% of the tasks, leading to an average normalized improvement of 52%. The
generality of Eureka also enables a new gradient-free in-context learning
approach to reinforcement learning from human feedback (RLHF), readily
incorporating human inputs to improve the quality and the safety of the
generated rewards without model updating. Finally, using Eureka rewards in a
curriculum learning setting, we demonstrate for the first time, a simulated
Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a
pen in circles at rapid speed.