OpenClaw-RL: 대화만으로 모든 에이전트를 쉽게 훈련시키기
OpenClaw-RL: Train Any Agent Simply by Talking
March 10, 2026
저자: Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang
cs.AI
초록
모든 에이전트 상호작용은 다음 상태 신호, 즉 사용자 응답, 도구 출력, 터미널 또는 GUI 상태 변화와 같은 액션 이후의 결과를 생성합니다. 그러나 기존의 에이전트 강화학습 시스템은 이를 실시간 온라인 학습 소스로 활용하지 못했습니다. 우리는 OpenClaw-RL을 제안합니다. 이 프레임워크는 단순한 관찰에 기반합니다: 다음 상태 신호는 보편적이며, 정책은 이들을 동시에 학습할 수 있습니다. 개인 대화, 터미널 실행, GUI 상호작용, SWE 작업, 도구 호출 추적은 별개의 훈련 문제가 아닙니다. 이들은 모두 동일한 루프에서 동일한 정책을 훈련하는 데 사용될 수 있는 상호작용입니다. 다음 상태 신호는 두 가지 형태의 정보를 인코딩합니다: 평가 신호는 액션 수행 정도를 나타내며 PRM 평가자를 통해 스칼라 보상으로 추출됩니다; 지시 신호는 액션이 어떻게 달라져야 하는지를 나타내며 후견 안내 온-정책 증류를 통해 복원됩니다. 우리는 다음 상태에서 텍스트 단서를 추출하고 강화된 교사 컨텍스트를 구성하며, 어떤 스칼라 보상보다 풍부한 토큰 수준의 방향성 이점 지도를 제공합니다. 비동기 설계 덕분에 모델은 실시간 요청을 처리하고, PRM은 진행 중인 상호작용을 평가하며, 트레이너는 정책을 동시에 업데이트합니다. 이들 간 조정 오버헤드는 전혀 없습니다. 개인 에이전트에 적용 시, OpenClaw-RL은 에이전트가 단순히 사용됨으로써 개선되게 하며, 사용자 재질의, 수정, 명시적 피드백에서 대화 신호를 복원합니다. 일반 에이전트에 적용 시, 동일한 인프라가 터미널, GUI, SWE, 도구 호출 환경에서 확장 가능한 강화학습을 지원하며, 여기서 우리는 프로세스 보상의 유용성을 추가로 입증합니다. 코드: https://github.com/Gen-Verse/OpenClaw-RL
English
Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL