OpenClaw-RL : Entraînez n'importe quel agent simplement en parlant
OpenClaw-RL: Train Any Agent Simply by Talking
March 10, 2026
Auteurs: Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang
cs.AI
Résumé
Chaque interaction d’un agent génère un signal d’état suivant, à savoir la réponse de l’utilisateur, le résultat d’un outil, ou un changement d’état dans le terminal ou l’interface graphique qui suit chaque action. Pourtant, aucun système existant d’apprentissage par renforcement (RL) agentique ne l’utilise comme source d’apprentissage en ligne et en temps réel. Nous présentons OpenClaw-RL, un cadre fondé sur une observation simple : les signaux d’état suivant sont universels, et une politique peut apprendre de tous simultanément. Les conversations personnelles, les exécutions en terminal, les interactions avec une interface graphique, les tâches de génie logiciel (SWE) et les traces d’appels d’outils ne constituent pas des problèmes d’entraînement distincts. Ce sont toutes des interactions qui peuvent servir à entraîner la même politique dans la même boucle. Les signaux d’état suivant encodent deux formes d’information : des signaux évaluatifs, qui indiquent la performance de l’action et sont extraits sous forme de récompenses scalaires via un évaluateur PRM ; et des signaux directifs, qui indiquent comment l’action aurait dû être différente et sont récupérés via une distillation sur politique guidée par rétrospection (Hindsight-Guided On-Policy Distillation, OPD). Nous extrayons des indices textuels de l’état suivant, construisons un contexte d’enseignant enrichi et fournissons une supervision directionnelle au niveau des tokens, plus riche qu’une simple récompense scalaire. Grâce à la conception asynchrone, le modèle sert des requêtes en direct, l’évaluateur PRM juge les interactions en cours et l’entraîneur met à jour la politique simultanément, sans aucune surcharge de coordination entre eux. Appliqué à des agents personnels, OpenClaw-RL permet à un agent de s’améliorer simplement en étant utilisé, en récupérant des signaux conversationnels à partir des reformulations, corrections et retours explicites des utilisateurs. Appliqué à des agents généraux, la même infrastructure prend en charge un RL scalable dans des contextes de terminal, d’interface graphique, de SWE et d’appels d’outils, où nous démontrons également l’utilité des récompenses de processus. Code : https://github.com/Gen-Verse/OpenClaw-RL
English
Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL