Descubriendo Interfaces de Aprendizaje por Refuerzo con Modelos de Lenguaje a Gran Escala

Resumen

Los sistemas de aprendizaje por refuerzo dependen de interfaces de entorno que especifican observaciones y funciones de recompensa, aunque la construcción de estas interfaces para nuevas tareas suele requerir un esfuerzo manual considerable. Si bien trabajos recientes han automatizado el diseño de recompensas utilizando modelos de lenguaje grandes (LLMs), estos enfoques asumen observaciones fijas y no abordan el desafío más amplio de sintetizar interfaces de tarea completas. Estudiamos el descubrimiento de interfaces de tarea para RL a partir de estados brutos del simulador, donde tanto los mapeos de observación como las funciones de recompensa deben generarse. Proponemos LIMEN (Código disponible en https://github.com/Lossfunk/LIMEN), un marco evolutivo guiado por LLM que produce interfaces candidatas como programas ejecutables y las refina iterativamente utilizando retroalimentación del entrenamiento de políticas. En diversas tareas novedosas de gridworld discreto y dominios de control continuo que abarcan locomoción y manipulación, la evolución conjunta de observaciones y recompensas descubre interfaces efectivas dado solo una métrica de éxito a nivel de trayectoria, mientras que la optimización de un solo componente falla en al menos un dominio. Estos resultados demuestran que la construcción automática de interfaces para RL a partir de estados brutos puede reducir sustancialmente la ingeniería manual y que los componentes de observación y recompensa a menudo se benefician de un diseño conjunto, ya que la optimización de un solo componente falla catastróficamente en al menos un dominio de nuestra suite de evaluación.

English

Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.

Descubriendo Interfaces de Aprendizaje por Refuerzo con Modelos de Lenguaje a Gran Escala

Discovering Reinforcement Learning Interfaces with Large Language Models

Resumen

Support