ChatPaper.aiChatPaper

大規模言語モデルを用いた強化学習インターフェースの発見

Discovering Reinforcement Learning Interfaces with Large Language Models

May 5, 2026
著者: Akshat Singh Jaswal, Ashish Baghel, Paras Chopra
cs.AI

要旨

強化学習システムは、観測と報酬関数を指定する環境インターフェースに依存しているが、新しいタスク用にこれらのインターフェースを構築するには、しばしば多大な手作業が必要となる。近年、大規模言語モデル(LLM)を用いた報酬設計の自動化が進められているが、これらの手法は固定された観測を前提としており、完全なタスクインターフェースを合成するというより広範な課題には対応していない。我々は、生のシミュレータ状態からRLタスクインターフェースを発見する問題を研究する。ここでは、観測マッピングと報酬関数の両方を生成する必要がある。我々はLIMEN(コードはhttps://github.com/Lossfunk/LIMENで入手可能)を提案する。これはLLMが導く進化的フレームワークであり、実行可能なプログラムとして候補インターフェースを生成し、ポリシー学習のフィードバックを用いてそれらを反復的に洗練する。離散的なグリッドワールドタスクと、移動操作および物体操作にわたる連続制御領域の両方において、観測と報酬の共同進化は、軌跡レベルの成功指標のみが与えられた状況で有効なインターフェースを発見する。一方、各コンポーネントのみを最適化すると、少なくとも一つの領域で失敗する。これらの結果は、生の状態からのRLインターフェースの自動構築が手作業を大幅に削減できること、そして観測と報酬のコンポーネントが協調設計から恩恵を受けることが多いことを示している。なぜなら、評価スイートの少なくとも一つの領域において、単一コンポーネントの最適化は壊滅的に失敗するからである。
English
Reinforcement learning systems rely on environment interfaces that specify observations and reward functions, yet constructing these interfaces for new tasks often requires substantial manual effort. While recent work has automated reward design using large language models (LLMs), these approaches assume fixed observations and do not address the broader challenge of synthesizing complete task interfaces. We study RL task interface discovery from raw simulator state, where both observation mappings and reward functions must be generated. We propose LIMEN (Code available at https://github.com/Lossfunk/LIMEN), a LLM guided evolutionary framework that produces candidate interfaces as executable programs and iteratively refines them using policy training feedback. Across novel discrete gridworld tasks and continuous control domains spanning locomotion and manipulation, joint evolution of observations and rewards discovers effective interfaces given only a trajectory-level success metric, while optimizing either component alone fails on at least one domain. These results demonstrate that automatic construction of RL interfaces from raw state can substantially reduce manual engineering and that observation and reward components often benefit from co-design, as single-component optimization fails catastrophically on at least one domain in our evaluation suite.
PDF31May 12, 2026