ChatPaper.aiChatPaper

OpenClaw-RL: Treine Qualquer Agente Simplesmente Conversando

OpenClaw-RL: Train Any Agent Simply by Talking

March 10, 2026
Autores: Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang
cs.AI

Resumo

Cada interação do agente gera um sinal de próximo estado, nomeadamente a resposta do usuário, a saída de ferramenta, a alteração de estado terminal ou da GUI que segue cada ação, contudo nenhum sistema RL agêntico existente o recupera como uma fonte de aprendizagem online e em tempo real. Apresentamos o OpenClaw-RL, uma estrutura baseada numa observação simples: os sinais de próximo estado são universais, e a política pode aprender com todos eles simultaneamente. Conversas pessoais, execuções de terminal, interações com GUI, tarefas de Engenharia de Software (SWE) e rastreios de chamadas de ferramentas não são problemas de treino separados. São todas interações que podem ser usadas para treinar a mesma política no mesmo ciclo. Os sinais de próximo estado codificam duas formas de informação: sinais avaliativos, que indicam quão bem a ação foi executada e são extraídos como recompensas escalares através de um juiz PRM (Reward Model); e sinais diretivos, que indicam como a ação deveria ter sido diferente e são recuperados através da Destilação On-Policy Guiada por Retrospetiva (Hindsight-Guided On-Policy Distillation - OPD). Extraímos pistas textuais do próximo estado, construímos um contexto de professor aprimorado e fornecemos supervisão direcional a nível de token que é mais rica do que qualquer recompensa escalar. Devido ao design assíncrono, o modelo serve pedidos em tempo real, o PRM julga interações em curso e o treinador atualiza a política ao mesmo tempo, com sobrecarga de coordenação zero entre eles. Aplicado a agentes pessoais, o OpenClaw-RL permite que um agente melhore simplesmente por ser usado, recuperando sinais conversacionais de novas consultas do usuário, correções e feedback explícito. Aplicado a agentes gerais, a mesma infraestrutura suporta RL escalável em ambientes de terminal, GUI, SWE e chamadas de ferramentas, onde demonstramos adicionalmente a utilidade das recompensas de processo. Código: https://github.com/Gen-Verse/OpenClaw-RL
English
Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL
PDF1306March 19, 2026