Découvrir des interfaces d'apprentissage par renforcement avec des grands modèles de langage

Résumé

Les systèmes d'apprentissage par renforcement reposent sur des interfaces d'environnement qui spécifient les observations et les fonctions de récompense, mais la construction de ces interfaces pour de nouvelles tâches nécessite souvent un effort manuel considérable. Bien que des travaux récents aient automatisé la conception des récompenses à l'aide de grands modèles de langage (LLM), ces approches supposent des observations fixes et ne traitent pas le défi plus large de la synthèse d'interfaces de tâches complètes. Nous étudions la découverte d'interfaces de tâches d'apprentissage par renforcement à partir de l'état brut du simulateur, où à la fois les correspondances d'observations et les fonctions de récompense doivent être générées. Nous proposons LIMEN (Code disponible à l'adresse https://github.com/Lossfunk/LIMEN), un cadre évolutif guidé par LLM qui produit des interfaces candidates sous forme de programmes exécutables et les affine itérativement à l'aide de retours d'entraînement de politiques. À travers de nouvelles tâches discrètes de type grille et des domaines de contrôle continu couvrant la locomotion et la manipulation, l'évolution conjointe des observations et des récompenses découvre des interfaces efficaces en ne disposant que d'une métrique de succès au niveau des trajectoires, tandis que l'optimisation d'un seul composant échoue sur au moins un domaine. Ces résultats démontrent que la construction automatique d'interfaces d'apprentissage par renforcement à partir d'un état brut peut réduire considérablement l'ingénierie manuelle et que les composants d'observation et de récompense bénéficient souvent d'une conception conjointe, car l'optimisation d'un seul composant échoue de manière catastrophique sur au moins un domaine de notre ensemble d'évaluation.

English

Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.

Découvrir des interfaces d'apprentissage par renforcement avec des grands modèles de langage

Discovering Reinforcement Learning Interfaces with Large Language Models

Résumé

Support