OpenClaw-RL: Обучите любого агента, просто разговаривая

Аннотация

Каждое взаимодействие агента порождает сигнал следующего состояния — ответ пользователя, вывод инструмента, изменение состояния терминала или GUI, следующее за каждым действием, — однако ни одна существующая система агентного обучения с подкреплением (RL) не использует его в качестве живого, онлайн-источника обучения. Мы представляем OpenClaw-RL — фреймворк, основанный на простом наблюдении: сигналы следующего состояния универсальны, и политика может обучаться на всех них одновременно. Личные беседы, выполнение команд в терминале, взаимодействия с GUI, задачи в области разработки программного обеспечения (SWE) и цепочки вызовов инструментов — это не отдельные учебные задачи. Все они представляют собой взаимодействия, которые можно использовать для обучения одной и той же политики в одном и том же цикле. Сигналы следующего состояния кодируют две формы информации: *оценочные сигналы*, которые указывают, насколько хорошо было выполнено действие и извлекаются в виде скалярных вознаграждений с помощью PRM-оценщика; и *директивные сигналы*, которые указывают, как действие следовало изменить, и восстанавливаются с помощью обучения на политике с управлением по ретроспективе (Hindsight-Guided On-Policy Distillation, OPD). Мы извлекаем текстовые подсказки из следующего состояния, формируем расширенный контекст для "учителя" и предоставляем потокенную направляющую advantage-супервизию, которая богаче любого скалярного вознаграждения. Благодаря асинхронной архитектуре модель обслуживает живые запросы, PRM-оценщик судит текущие взаимодействия, а тренировочный модуль обновляет политику одновременно, с нулевыми накладными расходами на координацию между ними. Примененный к персональным агентам, OpenClaw-RL позволяет агенту улучшаться просто в процессе использования, извлекая обучающие сигналы из повторных запросов пользователя, исправлений и явных отзывов. Примененный к универсальным агентам, та же инфраструктура поддерживает масштабируемое RL в средах терминала, GUI, SWE и вызовов инструментов, где мы дополнительно демонстрируем полезность процессуальных вознаграждений. Код: https://github.com/Gen-Verse/OpenClaw-RL

English

Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL

OpenClaw-RL: Обучите любого агента, просто разговаривая

OpenClaw-RL: Train Any Agent Simply by Talking

Аннотация

Support