Обнаружение интерфейсов обучения с подкреплением с помощью больших языковых моделей
Discovering Reinforcement Learning Interfaces with Large Language Models
May 5, 2026
Авторы: Akshat Singh Jaswal, Ashish Baghel, Paras Chopra
cs.AI
Аннотация
Системы обучения с подкреплением полагаются на интерфейсы среды, которые задают наблюдения и функции вознаграждения, однако создание таких интерфейсов для новых задач часто требует значительных ручных усилий. Хотя недавние работы автоматизировали проектирование вознаграждений с помощью больших языковых моделей (LLM), эти подходы предполагают фиксированные наблюдения и не решают более широкую задачу синтеза полных интерфейсов задач. Мы исследуем автоматическое обнаружение интерфейсов задач обучения с подкреплением на основе необработанного состояния симулятора, где должны быть сгенерированы как отображения наблюдений, так и функции вознаграждения. Мы предлагаем LIMEN (код доступен по адресу https://github.com/Lossfunk/LIMEN) — эволюционный фреймворк под руководством LLM, который порождает интерфейсы-кандидаты в виде исполняемых программ и итеративно уточняет их с использованием обратной связи от обучения политики. В новых дискретных задачах типа Gridworld и в непрерывных областях управления, включающих локомоцию и манипуляции, совместная эволюция наблюдений и вознаграждений позволяет обнаружить эффективные интерфейсы, имея лишь метрику успеха на уровне траекторий, в то время как оптимизация каждого из компонентов по отдельности терпит неудачу как минимум в одной области. Эти результаты демонстрируют, что автоматическое построение интерфейсов RL на основе необработанного состояния может существенно сократить объем ручной инженерии, а также что компоненты наблюдения и вознаграждения часто выигрывают от совместного проектирования, поскольку оптимизация одного компонента катастрофически проваливается как минимум в одном домене из нашего набора тестов.
English
Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.