WebRL: Обучение веб-агентов LLM с помощью саморазвивающейся онлайн-программы обучения с подкреплением
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
November 4, 2024
Авторы: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
cs.AI
Аннотация
Большие языковые модели (LLM) показали выдающийся потенциал в качестве автономных агентов, особенно в веб-ориентированных задачах. Однако существующие веб-агенты LLM тесно связаны с дорогостоящими проприетарными API LLM, в то время как открытые LLM не обладают необходимыми способностями принятия решений. В данной статье представлен WebRL, фреймворк обучения с подкреплением с саморазвивающейся онлайн-курсом, разработанный для обучения высокопроизводительных веб-агентов с использованием открытых LLM. WebRL решает три основных проблемы при создании веб-агентов LLM, включая недостаток обучающих задач, разреженные сигналы обратной связи и дрейф в распределении стратегий в процессе онлайн-обучения. Конкретно, WebRL включает в себя 1) саморазвивающийся курс, который генерирует новые задачи из неудачных попыток, 2) устойчивую модель вознаграждения с контролем исхода (ORM) и 3) адаптивные стратегии обучения с подкреплением для обеспечения последовательных улучшений. Мы применяем WebRL для преобразования открытых моделей Llama-3.1 и GLM-4 в опытных веб-агентов. На WebArena-Lite WebRL повышает процент успешных попыток с 4,8% до 42,4% для Llama-3.1-8B и с 6,1% до 43% для GLM-4-9B. Эти открытые модели значительно превосходят производительность GPT-4-Turbo (17,6%) и GPT-4o (13,9%) и превосходят предыдущих передовых веб-агентов, обученных на открытых LLM (AutoWebGLM, 18,2%). Наши результаты демонстрируют эффективность WebRL в преодолении разрыва между открытыми и проприетарными веб-агентами на основе LLM, открывая путь к более доступным и мощным автономным системам взаимодействия веба.
English
Large language models (LLMs) have shown remarkable potential as autonomous
agents, particularly in web-based tasks. However, existing LLM web agents
heavily rely on expensive proprietary LLM APIs, while open LLMs lack the
necessary decision-making capabilities. This paper introduces WebRL, a
self-evolving online curriculum reinforcement learning framework designed to
train high-performance web agents using open LLMs. WebRL addresses three key
challenges in building LLM web agents, including the scarcity of training
tasks, sparse feedback signals, and policy distribution drift in online
learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that
generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised
reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure
consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4
models into proficient web agents. On WebArena-Lite, WebRL improves the success
rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B.
These open models significantly surpass the performance of GPT-4-Turbo (17.6%)
and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained
on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's
effectiveness in bridging the gap between open and proprietary LLM-based web
agents, paving the way for more accessible and powerful autonomous web
interaction systems.Summary
AI-Generated Summary