ChatPaper.aiChatPaper

RLAnything:完全動的強化学習システムにおける環境・方策・報酬モデルの構築

RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

February 2, 2026
著者: Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang
cs.AI

要旨

我々はRLAnythingを提案する。これは環境モデル・方策モデル・報酬モデルを閉ループ最適化によって動的に構築する強化学習フレームワークであり、学習信号を増幅し、あらゆるLLMやエージェントシナリオにおける強化学習システム全体を強化するものである。具体的には、方策はステップ単位の信号と結果信号からなる統合的なフィードバックで学習され、報酬モデルは一貫性フィードバックを通じて共同最適化され、それがさらに方策の学習を改善する。さらに、理論に基づく自動環境適応により、各モデルからの批評的フィードバックを活用して報酬モデルと方策モデルの双方の学習を改善し、経験からの学習を可能にする。実験では、追加される各コンポーネントがシステム全体を一貫して改善し、RLAnythingは様々な代表的なLLMタスクおよびエージェントタスクで大幅な性能向上をもたらした。具体的には、OSWorldにおいてQwen3-VL-8B-Thinkingを9.1%、AlfWorldとLiveBenchにおいてそれぞれQwen2.5-7B-Instructを18.7%および11.9%改善した。また、最適化された報酬モデル信号は、人手ラベルに依存する結果よりも優れていることを示す。コード: https://github.com/Gen-Verse/Open-Agent
English
We propose RLAnything, a reinforcement learning framework that dynamically forges environment, policy, and reward models through closed-loop optimization, amplifying learning signals and strengthening the overall RL system for any LLM or agentic scenarios. Specifically, the policy is trained with integrated feedback from step-wise and outcome signals, while the reward model is jointly optimized via consistency feedback, which in turn further improves policy training. Moreover, our theory-motivated automatic environment adaptation improves training for both the reward and policy models by leveraging critic feedback from each, enabling learning from experience. Empirically, each added component consistently improves the overall system, and RLAnything yields substantial gains across various representative LLM and agentic tasks, boosting Qwen3-VL-8B-Thinking by 9.1% on OSWorld and Qwen2.5-7B-Instruct by 18.7% and 11.9% on AlfWorld and LiveBench, respectively. We also that optimized reward-model signals outperform outcomes that rely on human labels. Code: https://github.com/Gen-Verse/Open-AgentRL
PDF303February 7, 2026