RLAnything: 완전히 동적인 강화학습 시스템에서 환경, 정책, 보상 모델 구축하기
RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
February 2, 2026
저자: Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang
cs.AI
초록
우리는 RLAnything를 제안한다. 이는 폐루프 최적화를 통해 환경, 정책, 보상 모델을 동적으로 구축하여 학습 신호를 증폭하고, 모든 LLM 또는 에이전트 시나리오에 대해 전반적인 강화학습 시스템을 강화하는 프레임워크이다. 구체적으로, 정책은 단계별 신호와 결과 신호로부터 통합된 피드백으로 학습되는 반면, 보상 모델은 일관성 피드백을 통해 공동 최적화되어 정책 학습을 더욱 개선한다. 또한, 이론에 기반한 자동 환경 적응은 정책 모델과 보상 모델 각각의 비평가 피드백을 활용하여 둘 모두의 학습을 개선하고 경험으로부터의 학습을 가능하게 한다. 실험적으로, 각각 추가된 구성 요소는 일관되게 전체 시스템을 개선했으며, RLAnything는 다양한 대표적인 LLM 및 에이전트 과제에서 상당한 성능 향상을 보였다. 구체적으로 Qwen3-VL-8B-Thinking 모델은 OSWorld에서 9.1%, Qwen2.5-7B-Instruct 모델은 AlfWorld와 LiveBench에서 각각 18.7%와 11.9%의 성능 향상을 달성했다. 또한 최적화된 보상 모델 신호는 인간 레이블에 의존하는 결과보다 우수함을 확인했다. 코드: https://github.com/Gen-Verse/Open-AgentRL
English
We propose RLAnything, a reinforcement learning framework that dynamically forges environment, policy, and reward models through closed-loop optimization, amplifying learning signals and strengthening the overall RL system for any LLM or agentic scenarios. Specifically, the policy is trained with integrated feedback from step-wise and outcome signals, while the reward model is jointly optimized via consistency feedback, which in turn further improves policy training. Moreover, our theory-motivated automatic environment adaptation improves training for both the reward and policy models by leveraging critic feedback from each, enabling learning from experience. Empirically, each added component consistently improves the overall system, and RLAnything yields substantial gains across various representative LLM and agentic tasks, boosting Qwen3-VL-8B-Thinking by 9.1% on OSWorld and Qwen2.5-7B-Instruct by 18.7% and 11.9% on AlfWorld and LiveBench, respectively. We also that optimized reward-model signals outperform outcomes that rely on human labels. Code: https://github.com/Gen-Verse/Open-AgentRL