ChatPaper.aiChatPaper

Eureka: Menschliche Belohnungsgestaltung durch Programmierung großer Sprachmodelle

Eureka: Human-Level Reward Design via Coding Large Language Models

October 19, 2023
Autoren: Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben sich als hochrangige semantische Planer für sequenzielle Entscheidungsfindungsaufgaben hervorgetan. Es bleibt jedoch eine offene Herausforderung, sie für das Erlernen komplexer, feinmotorischer Manipulationsaufgaben wie das geschickte Drehen eines Stifts zu nutzen. Wir schließen diese grundlegende Lücke und präsentieren Eureka, einen Algorithmus zur Belohnungsgestaltung auf menschlichem Niveau, der von LLMs angetrieben wird. Eureka nutzt die bemerkenswerten Fähigkeiten modernster LLMs wie GPT-4 zur Null-Shot-Generierung, Code-Erstellung und kontextbezogenen Verbesserung, um eine evolutionäre Optimierung von Belohnungscode durchzuführen. Die resultierenden Belohnungen können dann verwendet werden, um komplexe Fähigkeiten durch bestärkendes Lernen zu erwerben. Ohne aufgabenspezifische Eingabeaufforderungen oder vordefinierte Belohnungsvorlagen erzeugt Eureka Belohnungsfunktionen, die von Menschenhand entwickelte Belohnungen übertreffen. In einer vielfältigen Sammlung von 29 Open-Source-RL-Umgebungen, die 10 verschiedene Robotermorphologien umfassen, übertrifft Eureka menschliche Experten in 83 % der Aufgaben, was zu einer durchschnittlichen normalisierten Verbesserung von 52 % führt. Die Allgemeingültigkeit von Eureka ermöglicht auch einen neuen gradientenfreien, kontextbezogenen Lernansatz für bestärkendes Lernen aus menschlichem Feedback (RLHF), der menschliche Eingaben leicht integriert, um die Qualität und Sicherheit der generierten Belohnungen ohne Modellaktualisierung zu verbessern. Schließlich demonstrieren wir erstmals mithilfe von Eureka-Belohnungen in einem Curriculum-Learning-Setting eine simulierte Shadow Hand, die in der Lage ist, Stiftdrehtricks auszuführen und einen Stift mit hoher Geschwindigkeit geschickt im Kreis zu bewegen.
English
Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.
PDF263December 15, 2024