AsyncWebRL: Effizientes mehrstufiges RL für visuelle Web-Agenten

Zusammenfassung

Das Training visuell-sprachlicher Web-Agenten mit mehrstufigem Reinforcement Learning ist rechenintensiv und weist zwei dominante Ineffizienzformen auf: untätige GPUs in synchronem RL sowie Trajektorien, die mehr Schritte und Tokens als nötig verwenden. Wir stellen AsyncWebRL vor, das beide Probleme angeht. Auf der Systemseite überlappt ein asynchrones Design Rollout, Gradientenaktualisierung und Richtlinienaktualisierung über Iterationen hinweg, ergänzt durch zwei webspezifische Anpassungen – einen permanenten Rollout-Pool und eine leichtgewichtige Bildschirmfoto-Verarbeitung –, die zusammen eine bis zu 2,9-fache Beschleunigung des end-to-end-Trainingsdurchsatzes gegenüber der bisher schnellsten offenen synchronen Pipeline (WebGym) erzielen. Auf der algorithmischen Seite identifizieren wir den Pro-Trajektorien-Normalisierer 1/|τ_i| im mehrstufigen GRPO als Ursache für die Ineffizienz auf Trajektorien- und Token-Ebene: Da Fehlschläge systematisch länger sind als Erfolge, gewichtet er den negativen Gradienten auf fehlgeschlagenen Tokens herab, sodass die Richtlinie weiterhin ausführliche Gedächtnisschemata produziert. Der Ersatz von 1/|τ_i| durch eine Konstante 1/k bricht diese Kopplung, verkürzt Trajektorien und erhält gleichzeitig den Gesamterfolg. Zusammen setzen diese Beiträge einen neuen Open-Source-Spitzenwert auf dem Out-of-Distribution-Test-Split von WebGym (+5,8 % relativ gegenüber dem vorherigen Bestwert von 42,9 %), mit den größten Zuwächsen bei den schwierigeren Unterbereichen (+42 % relativ bei Medium, +48 % relativ bei Hard).

English

Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of inefficiency: idle GPUs in synchronous RL, and trajectories that use more steps and tokens than necessary. We present AsyncWebRL, which addresses both. On the system side, an asynchronous design overlaps rollout, gradient update, and policy refresh across iterations, paired with two web-agent-specific adaptations, namely an everlasting rollout pool and lightweight screenshot handling, that together deliver up to a 2.9times end-to-end training-throughput speedup over the previously fastest open synchronous pipeline (WebGym). On the algorithmic side, we identify the per-trajectory normalizer 1/|τ_i| in multi-step GRPO as the root cause of trajectory-level and token-level inefficiency: because failures are systematically longer than successes, it down-weights the negative gradient on failed tokens, so the policy keeps producing verbose memory schemas. Replacing 1/|τ_i| with a constant 1/k breaks this coupling, contracting trajectories while preserving aggregate success. Together, these contributions set a new open-source state of the art on the WebGym out-of-distribution test split (+5.8% relative over the 42.9% prior best), with the largest gains on the harder slices (+42% relative on Medium, +48% relative on Hard).