Entdeckung von Reinforcement-Learning-Schnittstellen mit großen Sprachmodellen
Discovering Reinforcement Learning Interfaces with Large Language Models
May 5, 2026
Autoren: Akshat Singh Jaswal, Ashish Baghel, Paras Chopra
cs.AI
Zusammenfassung
Systeme des bestärkenden Lernens (Reinforcement Learning, RL) sind auf Umgebungsschnittstellen angewiesen, die Beobachtungen und Belohnungsfunktionen spezifizieren. Die Erstellung dieser Schnittstellen für neue Aufgaben erfordert jedoch oft einen erheblichen manuellen Aufwand. Während neuere Arbeiten die automatisierte Belohnungsgestaltung mithilfe großer Sprachmodelle (Large Language Models, LLMs) ermöglicht haben, gehen diese Ansätze von festen Beobachtungen aus und adressieren nicht die umfassendere Herausforderung der Synthese vollständiger Aufgabenschnittstellen. Wir untersuchen die Entdeckung von RL-Aufgabenschnittstellen aus rohem Simulatorzustand, bei der sowohl Beobachtungszuordnungen als auch Belohnungsfunktionen generiert werden müssen. Wir schlagen LIMEN (Code verfügbar unter https://github.com/Lossfunk/LIMEN) vor, ein LLM-gestütztes evolutionäres Framework, das Kandidatenschnittstellen als ausführbare Programme erzeugt und diese mithilfe von Rückmeldungen aus dem Policytraining iterativ verfeinert. Über neuartige diskrete Gitterweltaufgaben und kontinuierliche Kontrollbereiche hinweg, die Fortbewegung und Manipulation umfassen, entdeckt die gemeinsame Evolution von Beobachtungen und Belohnungen effektive Schnittstellen, wenn nur eine Erfolgsmetrik auf Trajektorienebene gegeben ist, während die Optimierung einer einzelnen Komponente mindestens in einem Bereich fehlschlägt. Diese Ergebnisse zeigen, dass die automatische Konstruktion von RL-Schnittstellen aus rohem Zustand den manuellen Entwicklungsaufwand erheblich reduzieren kann und dass Beobachtungs- und Belohnungskomponenten oft von einem gemeinsamen Design profitieren, da die Optimierung einer einzelnen Komponente in mindestens einem Bereich unserer Evaluierungssuite katastrophal fehlschlägt.
English
Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.