AsyncWebRL: эффективное многошаговое обучение с подкреплением для визуальных веб-агентов

Аннотация

Обучение веб-агентов на основе языка и изображений с помощью многошагового RL является вычислительно затратным, при этом доминируют две формы неэффективности: простой GPU в синхронном RL и траектории, использующие больше шагов и токенов, чем необходимо. Мы представляем AsyncWebRL, решающий обе эти проблемы. Со стороны системы асинхронная архитектура совмещает rollout, обновление градиента и обновление политики между итерациями, что дополняется двумя адаптациями, специфичными для веб-агентов, а именно бесконечным пулом развертывания и легковесной обработкой скриншотов. Вместе они обеспечивают до 2,9-кратного ускорения сквозной пропускной способности обучения по сравнению с самым быстрым из существующих открытых синхронных конвейеров (WebGym). Со стороны алгоритма мы выявляем, что коренной причиной неэффективности на уровне траекторий и токенов является нормализатор 1/|τ_i| в многошаговом GRPO: поскольку неудачные траектории систематически длиннее успешных, он понижает вес отрицательного градиента для токенов неудачных траекторий, в результате чего политика продолжает порождать многословные схемы памяти. Замена 1/|τ_i| на константу 1/k разрывает эту связь, сокращая траектории при сохранении совокупного успеха. В совокупности эти вклады устанавливают новый стандарт среди открытых решений для тестового раздела вне распределения WebGym (+5,8% относительного прироста к предыдущему лучшему результату в 42,9%), причем наибольшие улучшения достигаются на более сложных подразделах (+42% относительного прироста на Medium, +48% относительного прироста на Hard).

English

Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of inefficiency: idle GPUs in synchronous RL, and trajectories that use more steps and tokens than necessary. We present AsyncWebRL, which addresses both. On the system side, an asynchronous design overlaps rollout, gradient update, and policy refresh across iterations, paired with two web-agent-specific adaptations, namely an everlasting rollout pool and lightweight screenshot handling, that together deliver up to a 2.9times end-to-end training-throughput speedup over the previously fastest open synchronous pipeline (WebGym). On the algorithmic side, we identify the per-trajectory normalizer 1/|τ_i| in multi-step GRPO as the root cause of trajectory-level and token-level inefficiency: because failures are systematically longer than successes, it down-weights the negative gradient on failed tokens, so the policy keeps producing verbose memory schemas. Replacing 1/|τ_i| with a constant 1/k breaks this coupling, contracting trajectories while preserving aggregate success. Together, these contributions set a new open-source state of the art on the WebGym out-of-distribution test split (+5.8% relative over the 42.9% prior best), with the largest gains on the harder slices (+42% relative on Medium, +48% relative on Hard).