AsyncWebRL: Aprendizaje por Refuerzo Multi-Paso Eficiente para Agentes Web Visuales

Resumen

Entrenar agentes web de visión-lenguaje con RL de múltiples pasos es intensivo en cómputo, con dos formas dominantes de ineficiencia: GPUs inactivas en RL síncrona, y trayectorias que utilizan más pasos y tokens de los necesarios. Presentamos AsyncWebRL, que aborda ambas. En el lado del sistema, un diseño asíncrono superpone el despliegue, la actualización de gradiente y la actualización de política a través de iteraciones, acompañado de dos adaptaciones específicas para agentes web, a saber, un pool de despliegue perpetuo y un manejo ligero de capturas de pantalla, que en conjunto proporcionan una aceleración del rendimiento de entrenamiento de extremo a extremo de hasta 2,9 veces en comparación con el pipeline síncrono abierto más rápido anterior (WebGym). En el lado algorítmico, identificamos el normalizador por trayectoria 1/|τ_i| en GRPO de múltiples pasos como la causa raíz de la ineficiencia a nivel de trayectoria y de token: debido a que los fallos son sistemáticamente más largos que los éxitos, reduce el peso del gradiente negativo sobre los tokens fallidos, por lo que la política sigue produciendo esquemas de memoria verbosos. Reemplazar 1/|τ_i| por una constante 1/k rompe este acoplamiento, contrayendo las trayectorias mientras se preserva el éxito agregado. En conjunto, estas contribuciones establecen un nuevo estado del arte de código abierto en la división de prueba fuera de distribución de WebGym (+5,8% relativo sobre el 42,9% del mejor anterior), con las mayores ganancias en los subconjuntos más difíciles (+42% relativo en Medium, +48% relativo en Hard).

English

Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of inefficiency: idle GPUs in synchronous RL, and trajectories that use more steps and tokens than necessary. We present AsyncWebRL, which addresses both. On the system side, an asynchronous design overlaps rollout, gradient update, and policy refresh across iterations, paired with two web-agent-specific adaptations, namely an everlasting rollout pool and lightweight screenshot handling, that together deliver up to a 2.9times end-to-end training-throughput speedup over the previously fastest open synchronous pipeline (WebGym). On the algorithmic side, we identify the per-trajectory normalizer 1/|τ_i| in multi-step GRPO as the root cause of trajectory-level and token-level inefficiency: because failures are systematically longer than successes, it down-weights the negative gradient on failed tokens, so the policy keeps producing verbose memory schemas. Replacing 1/|τ_i| with a constant 1/k breaks this coupling, contracting trajectories while preserving aggregate success. Together, these contributions set a new open-source state of the art on the WebGym out-of-distribution test split (+5.8% relative over the 42.9% prior best), with the largest gains on the harder slices (+42% relative on Medium, +48% relative on Hard).