ChatPaper.aiChatPaper

대규모 언어 모델을 활용한 강화 학습 인터페이스 발견

Discovering Reinforcement Learning Interfaces with Large Language Models

May 5, 2026
저자: Akshat Singh Jaswal, Ashish Baghel, Paras Chopra
cs.AI

초록

강화 학습 시스템은 관측과 보상 함수를 명시하는 환경 인터페이스에 의존하지만, 새로운 작업을 위해 이러한 인터페이스를 구축하는 데는 상당한 수작업이 필요하다. 최근 연구에서 대규모 언어 모델(LLM)을 사용하여 보상 설계를 자동화했지만, 이 접근법은 고정된 관측을 가정할 뿐 완전한 작업 인터페이스를 합성하는 광범위한 문제를 해결하지는 못한다. 본 연구에서는 관측 매핑과 보상 함수를 모두 생성해야 하는 원시 시뮬레이터 상태로부터의 RL 작업 인터페이스 발견을 다룬다. 우리는 LIMEN(코드: https://github.com/Lossfunk/LIMEN)을 제안한다. 이는 LLM 기반 진화적 프레임워크로, 실행 가능한 프로그램 형태로 후보 인터페이스를 생성하고 정책 학습 피드백을 사용하여 이를 반복적으로 개선한다. 이산 격자 세계 작업과 이동 및 조작을 포함한 연속 제어 영역 전반에 걸쳐, 관측과 보상의 공동 진화는 궤적 수준의 성공 지표만 주어진 상태에서 효과적인 인터페이스를 발견하는 반면, 어느 한 구성요소만 최적화할 경우 적어도 한 영역에서는 실패한다. 이러한 결과는 원시 상태로부터 RL 인터페이스를 자동으로 구축함으로써 수작업을 크게 줄일 수 있으며, 관측과 보상 구성요소가 공동 설계의 이점을 자주 얻는다는 점을 보여준다. 이는 평가 스위트에서 단일 구성요소 최적화가 적어도 한 영역에서 치명적으로 실패하기 때문이다.
English
Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.
PDF31May 12, 2026