OpenClaw-RL: Trainieren Sie beliebige Agenten einfach durch Spracheingabe
OpenClaw-RL: Train Any Agent Simply by Talking
March 10, 2026
Autoren: Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang
cs.AI
Zusammenfassung
Jede Agenten-Interaktion erzeugt ein Next-State-Signal, nämlich die Antwort des Nutzers, die Werkzeugausgabe, die Terminal- oder GUI-Zustandsänderung, die auf jede Aktion folgt. Dennoch nutzt kein bestehendes agentenbasiertes RL-System dieses Signal als lebendige, online Lernquelle. Wir stellen OpenClaw-RL vor, ein Framework, das auf einer einfachen Beobachtung basiert: Next-State-Signale sind universell, und die Policy kann von allen gleichzeitig lernen. Persönliche Konversationen, Terminal-Ausführungen, GUI-Interaktionen, SWE-Aufgaben und Werkzeugaufruf-Spuren sind keine separaten Trainingsprobleme. Es sind alles Interaktionen, die genutzt werden können, um dieselbe Policy in derselben Schleife zu trainieren. Next-State-Signale kodieren zwei Formen von Information: evaluative Signale, die anzeigen, wie gut die Aktion war und als skalare Belohnungen durch einen PRM-Judge extrahiert werden; und direktive Signale, die anzeigen, wie die Aktion hätte anders sein sollen und durch Hindsight-Guided On-Policy Distillation (OPD) gewonnen werden. Wir extrahieren textuelle Hinweise aus dem Folgezustand, konstruieren einen erweiterten Lehrer-Kontext und bieten Token-level direktionale Vorteils-Supervision, die aussagekräftiger ist als jede skalare Belohnung. Durch das asynchrone Design verarbeitet das Modell live Anfragen, der PRM-Judge bewertet laufende Interaktionen und der Trainer aktualisiert die Policy gleichzeitig, ohne jeglichen Koordinationsaufwand zwischen ihnen. Angewendet auf persönliche Agenten ermöglicht OpenClaw-RL einem Agenten, sich allein durch die Nutzung zu verbessern, indem konversationelle Signale aus Nutzer-Nachfragen, Korrekturen und explizitem Feedback gewonnen werden. Angewendet auf allgemeine Agenten unterstützt dieselbe Infrastruktur skalierbares RL über Terminal-, GUI-, SWE- und Werkzeugaufruf-Szenarien hinweg, wo wir zusätzlich den Nutzen von Prozessbelohnungen demonstrieren. Code: https://github.com/Gen-Verse/OpenClaw-RL
English
Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL