OpenClaw-RL: Entrena Cualquier Agente Simplemente Hablando

Resumen

Cada interacción del agente genera una señal de estado siguiente, es decir, la respuesta del usuario, la salida de la herramienta, o el cambio de estado en la terminal o interfaz gráfica que sigue a cada acción; sin embargo, ningún sistema de RL agente existente la recupera como una fuente de aprendizaje en línea y en vivo. Presentamos OpenClaw-RL, un marco basado en una observación simple: las señales de estado siguiente son universales, y la política puede aprender de todas ellas simultáneamente. Las conversaciones personales, las ejecuciones en terminal, las interacciones con GUI, las tareas de SWE y los rastreos de llamadas a herramientas no son problemas de entrenamiento separados. Todas son interacciones que pueden utilizarse para entrenar la misma política en el mismo bucle. Las señales de estado siguiente codifican dos formas de información: señales evaluativas, que indican qué tan bien se desempeñó la acción y se extraen como recompensas escalares mediante un juez PRM; y señales directivas, que indican cómo debería haber sido diferente la acción y se recuperan mediante la Destilación en Política con Guía Retrospectiva (OPD). Extraemos pistas textuales del estado siguiente, construimos un contexto de profesor mejorado y proporcionamos una supervisión direccional de ventaja a nivel de token que es más rica que cualquier recompensa escalar. Debido al diseño asíncrono, el modelo atiende solicitudes en vivo, el PRM juzga las interacciones en curso y el entrenador actualiza la política al mismo tiempo, sin sobrecarga de coordinación entre ellos. Aplicado a agentes personales, OpenClaw-RL permite que un agente mejore simplemente siendo usado, recuperando señales conversacionales de nuevas consultas del usuario, correcciones y comentarios explícitos. Aplicado a agentes generales, la misma infraestructura admite RL escalable en entornos de terminal, GUI, SWE y llamadas a herramientas, donde además demostramos la utilidad de las recompensas de proceso. Código: https://github.com/Gen-Verse/OpenClaw-RL

English

Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL

OpenClaw-RL: Entrena Cualquier Agente Simplemente Hablando

OpenClaw-RL: Train Any Agent Simply by Talking

Resumen

Support