Het ontdekken van reinforcement learning-interfaces met grote taalmodellen

Samenvatting

Reinforcement learning-systemen zijn afhankelijk van omgevingsinterfaces die observaties en beloningsfuncties specificeren, maar het construeren van deze interfaces voor nieuwe taken vereist vaak aanzienlijke handmatige inspanning. Hoewel recent werk het ontwerp van beloningen heeft geautomatiseerd met behulp van grote taalmodellen (LLM's), gaan deze benaderingen uit van vaste observaties en pakken ze de bredere uitdaging van het synthetiseren van volledige taakinterfaces niet aan. Wij bestuderen het ontdekken van RL-taakinterfaces op basis van ruwe simulatorstatus, waarbij zowel observatietoewijzingen als beloningsfuncties moeten worden gegenereerd. Wij stellen LIMEN voor (code beschikbaar op https://github.com/Lossfunk/LIMEN), een door LLM geleid evolutionair raamwerk dat kandidaat-interfaces genereert als uitvoerbare programma's en deze iteratief verfijnt met behulp van feedback van beleidstraining. In nieuwe discrete gridworld-taken en continue besturingsdomeinen die variëren van voortbeweging tot manipulatie, ontdekt gezamenlijke evolutie van observaties en beloningen effectieve interfaces met alleen een succesmetriek op trajectniveau, terwijl het optimaliseren van slechts één component faalt in ten minste één domein. Deze resultaten tonen aan dat automatische constructie van RL-interfaces op basis van ruwe status de handmatige engineering aanzienlijk kan verminderen en dat observatie- en beloningscomponenten vaak baat hebben bij co-design, aangezien optimalisatie van één component catastrofaal faalt in ten minste één domein in onze evaluatieset.

English

Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.