OpenClaw-RL: Addestrare Qualsiasi Agente Semplicemente Parlando

Abstract

Ogni interazione dell'agente genera un segnale di stato successivo, ovvero la risposta dell'utente, l'output dello strumento, la variazione dello stato del terminale o dell'interfaccia grafica che segue ogni azione, eppure nessun sistema RL agente esistente lo recupera come fonte di apprendimento in tempo reale e online. Presentiamo OpenClaw-RL, un framework basato su una semplice osservazione: i segnali di stato successivo sono universali, e la politica può apprendere da tutti loro simultaneamente. Conversazioni personali, esecuzioni di terminale, interazioni con interfacce grafiche, task di ingegneria del software e tracce di chiamate a strumenti non sono problemi di addestramento separati. Sono tutte interazioni che possono essere utilizzate per addestrare la stessa politica nello stesso ciclo. I segnali di stato successivo codificano due forme di informazione: segnali valutativi, che indicano quanto bene l'azione ha performato e sono estratti come ricompense scalari tramite un giudice PRM; e segnali direttivi, che indicano come l'azione avrebbe dovuto essere diversa e sono recuperati tramite Distillazione On-Policy Guidata dal Senno di Poi (Hindsight-Guided OPD). Estraiamo suggerimenti testuali dallo stato successivo, costruiamo un contesto insegnante potenziato e forniamo una supervisione del vantaggio direzionale a livello di token che è più ricca di qualsiasi ricompensa scalare. Grazie al design asincrono, il modello serve richieste in tempo reale, il PRM giudica le interazioni in corso e l'addestratore aggiorna la politica contemporaneamente, con un overhead di coordinamento pari a zero tra di loro. Applicato ad agenti personali, OpenClaw-RL permette a un agente di migliorare semplicemente venendo utilizzato, recuperando segnali conversazionali da nuove richieste dell'utente, correzioni e feedback espliciti. Applicato ad agenti generali, la stessa infrastruttura supporta RL scalabile in contesti di terminale, interfacce grafiche, ingegneria del software e chiamate a strumenti, dove dimostriamo inoltre l'utilità delle ricompense di processo. Codice: https://github.com/Gen-Verse/OpenClaw-RL

English

Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL

OpenClaw-RL: Addestrare Qualsiasi Agente Semplicemente Parlando

OpenClaw-RL: Train Any Agent Simply by Talking

Abstract

Support