AsyncWebRL : RL multi-étape efficace pour agents Web visuels

Résumé

L’entraînement d’agents web vision-langage avec RL multi-étapes est coûteux en calcul, avec deux formes dominantes d’inefficacité : les GPU inactifs dans la RL synchrone, et les trajectoires qui utilisent plus d’étapes et de jetons que nécessaire. Nous présentons AsyncWebRL, qui remédie à ces deux problèmes. Du côté système, une conception asynchrone chevauche le déploiement, la mise à jour des gradients et l’actualisation de la politique entre les itérations, associée à deux adaptations spécifiques aux agents web, à savoir un pool de déploiement permanent et un traitement léger des captures d’écran, qui ensemble offrent une accélération du débit d’entraînement de bout en bout allant jusqu’à 2,9 fois par rapport au pipeline synchrone ouvert le plus rapide auparavant (WebGym). Du côté algorithmique, nous identifions le normalisateur par trajectoire 1/|τ_i| dans le GRPO multi-étapes comme la cause profonde de l’inefficacité au niveau des trajectoires et des jetons : comme les échecs sont systématiquement plus longs que les réussites, il réduit le poids du gradient négatif sur les jetons échoués, de sorte que la politique continue de produire des schémas de mémoire verbeux. Remplacer 1/|τ_i| par une constante 1/k brise ce couplage, contractant les trajectoires tout en préservant le succès agrégé. Ensemble, ces contributions établissent un nouvel état de l’art open-source sur la partition de test hors distribution de WebGym (+5,8 % en relatif par rapport au meilleur précédent de 42,9 %), avec les plus grands gains sur les tranches les plus difficiles (+42 % en relatif sur Medium, +48 % en relatif sur Hard).

English

Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of inefficiency: idle GPUs in synchronous RL, and trajectories that use more steps and tokens than necessary. We present AsyncWebRL, which addresses both. On the system side, an asynchronous design overlaps rollout, gradient update, and policy refresh across iterations, paired with two web-agent-specific adaptations, namely an everlasting rollout pool and lightweight screenshot handling, that together deliver up to a 2.9times end-to-end training-throughput speedup over the previously fastest open synchronous pipeline (WebGym). On the algorithmic side, we identify the per-trajectory normalizer 1/|τ_i| in multi-step GRPO as the root cause of trajectory-level and token-level inefficiency: because failures are systematically longer than successes, it down-weights the negative gradient on failed tokens, so the policy keeps producing verbose memory schemas. Replacing 1/|τ_i| with a constant 1/k breaks this coupling, contracting trajectories while preserving aggregate success. Together, these contributions set a new open-source state of the art on the WebGym out-of-distribution test split (+5.8% relative over the 42.9% prior best), with the largest gains on the harder slices (+42% relative on Medium, +48% relative on Hard).